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最 近 在 看 NTU 林 轩 田 的 《机 器 学 习 基 石 》 课 程 ， 个 人 感觉 讲 的 非常 好 。 整 个 基石 课程 
分 成 四 个 部 分 : 

e When Can Machine Learn? 

e Why Can Machine Learn? 

e How Can Machine Learn? 

e How Can Machine Learn Better? 
每 个 部 分 由 四 节 课 组 成 ， 总 共有 16 节 课 。 那 么 ， 从 这 篇 开始 ， 我 们 将 连续 对 这 门 课 做 


课程 笔记 ， 共 16 篇 ， 希 望 能 对 正在 看 这 们 课 的 童鞋 有 所 帮助 。 下 面 开始 第 一 节 课 的 笔 
记 : The Learning Problem。 


一 、What is Machine Learning 


什么 是 "学习 ”? 学 习 就 是 人 类 通过 观察 、 积 累 经 验 ， 掌 握 某 项 技能 或 能 力 。 就 好 像 我 
们 从 小 学 习 识别 字母 、 认 识 汉字 ′ 就 是 学 习 的 过 程 。 而 机 器 学 习 (Machine 
Learning) ， 顾 名 思 义 ， 就 是 让 机 器 (计算 机 ) 也 能 向 人 类 一 样 ， 通 过 观察 大 量 的 数 
据 和 训练 ， 发 现 事物 规律 ， 获 得 某 种 分 析 问 题 、 解 决 问题 的 能 力 。 


learning: acquiring skill 
with experience accumulated from observations 


observations learning skill 


machine learning: acquiring skill 
with experience accumulated/computed from data 


data skill 





机 器 学 习 可 以 被 定义 为 : Improving some performance measure with experence 
computed from data. 也 就 是 机 器 从 数据 中 总 结 经 验 ， 从 数据 中 找 出 某 种 规律 或 者 模 
型 ， 并 用 它 来 解决 实际 问题 。 


skill 
€» improve some performance measure (e.g. prediction accuracy) | 


machine learning: improving some performance measure 
with experience computed from data 


improved 
data performance 
measure 





什么 情况 下 会 使 用 机 器 学 习 来 解决 问题 呢 ? 其实， 目前 机 器 学 习 的 应 用 非常 广泛 ， 基 
本 上 任何 场合 都 能 够 看 到 它 的 身影 。 其 应 用 场合 大 致 可 归纳 为 三 个 条 件 : 


。 事物 本 身 存 在 某 种 潜在 规律 
。 某 些 问题 难以 使 用 普通 编程 解决 
。 有 大 量 的 数据 样本 可 供 使 用 


Q exists some ‘underlying pattern’ to be learned 
—so 'performance measure' can be improved 
O but no programmable (easy) definition 
—so ‘ML is needed 
© somehow there is data about the pattern 
一 SO ML has some ‘inputs’ to learn from 





—. Applications of Machine Learning 


机 器 学 习 人 在 我 们 的 衣 、 食 、 住 、 行 、 教 育 、 娱 乐 等 各 个 方面 都 有 着 广泛 的 应 用 ， 我 们 
的 生活 处 处 都 离 不 开机 器 学 习 。 比 如 ， 打 开 购 物 网 站 ， 网 站 就 会 给 我 们 自动 推荐 我 们 
可 能 会 喜欢 的 商品 ; 电影 频道 会 根据 用 户 的 浏览 记录 和 观 影 记 录 ， 向 不 同 用 户 推荐 他 
们 可 能 喜欢 的 电影 等 等 ， 到 处 都 有 机 器 学 习 的 影子 。 


三 、Components of Machine Learning 





本 系列 的 课程 对 机 器 学 习 问题 有 一 些 基本 的 术语 需要 注意 一 下 : 


。 输入 x 

。 输出 y 

。 目标 函数 f， 即 最 接近 实际 样本 分 布 的 规律 

。 训练 样本 data 

。 假设 nypothesis， 一 个 机 器 学 习 模型 对 应 了 很 多 不 同 的 hypothesis， 通 过 演算 法 
A， 选 择 一 个 最 佳 的 hypothesis 对 应 的 函数 称 为 矩 g，g 能 最 好 地 表示 事物 的 内 在 
规律 ， 也 是 我 们 最 终 想 要 得 到 的 模型 表达 式 。 


Basic Notations 

e input: x € X (customer application) 

e output: y € y (good/bad after approving credit card) 

e unknown pattern to be learned + target.fudnction: 
f: X — y (ideal credit approval formula) 

e data « training examples: D = ((X1.y1). (X2, yo). -- - , (XN, YN)! 
(historical records in bank) 

e hypothesis = skill with hopefully good performance: 
g: X — y (‘learned’ formula to be used) 





实际 中 ， 机 器 学 习 的 流程 图 可 以 表示 为 : 


unknown target function 
f: X > Y 


(ideal credit approval formula) 



















training examples — final hypothesis 
D: (X4. 1). (Xu. YN ar" =f 





(histoncal records in bank) (‘learned formula to be used) 


hypothesis set 
H 


(set of candidate formula) 
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型 ， 该 模型 对 应 的 hypothesis set (用 H 表 示 ) ，H 中 包含 了 许多 不 同 的 hypothesis， 
通过 演算 法 A， 在 训练 样本 D 上 进行 训练 ， 选 择 出 一 个 最 好 的 hypothes， 对 应 的 函数 表 
达 式 g 就 是 我 们 最 终 要 求 的 。 一 般 情 况 下 ，g 能 最 接近 目标 函数 f， 这 样 ， 机 器 学 习 的 整 
个 流程 就 完成 了 。 


四 、Machine Learning and Other Fields 
与 机 器 学 习 相关 的 领域 有 : 


。 数据 挖掘 (Data Mining) 

© 人 工 智能 (Artificial Intelligence) 

。 统计 (Statistics) 
其 实 ， 机 器 学 习 与 这 三 个 领域 是 相通 的 ， 基 本 类 似 ， 但 也 不 完全 一 样 。 机 器 学 习 是 这 
三 个 领域 中 的 有 力 工 具 ， 而 同时 ， 这 三 个 领域 也 是 机 器 学 习 可 以 广泛 应 用 的 领域 ， 总 
得 来 说 ， 他 们 之 间 没 有 十 分 明确 的 界线 。 


五 、 总 结 


本 节 课 主要 介绍 了 什么 是 机 器 学 习 ， 什 么 样 的 场合 下 可 以 使 用 机 器 学 习 解 决 问题 ， 然 
后 用 流程 图 的 形式 展示 了 机 器 学 习 的 整个 过 程 ， 最 后 把 机 器 学 习 和 数据 挖掘 、 人 工 智 
能 、 统 计 这 三 个 领域 做 个 比较 。 本 节 课 的 内 容 主 要 是 概述 性 的 东西 ， 比 较 简 单 ， 所 以 
笔记 也 相对 比较 简略 。 


这 里 附 上 林 轩 田 (Hsuan-Tien Lin) 关于 这 门 课 的 主页 : 


http://www.csie.ntu.edu.tw/~htlin/ 
注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 基 石 》 课 程 。 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 2 -- Learning to 


Answer Yes-No 


作者 : ARAL ARE: AI 有 道 (id: redstonewill) 


上 节 课 ， 我 们 主要 简 述 了 机 器 学 习 的 定义 及 其 重要 性 ， 并 用 流程 图 的 形式 介绍 了 机 器 
学 习 的 整个 过 程 : 根据 模型 H， 使 用 演算 法 A， 在 训练 样本 D 上 进行 训练 ， 得 到 最 好 的 
h， 其 对 应 的 g 就 是 我 们 最 后 需要 的 机 器 学 习 的 模型 函数 ， 一 般 g 接 近 于 目标 函数 f。 本 
节 课 将 继续 深入 探讨 机 器 学 习 问 题 ， 介 绍 感知 机 Perceptron 模 型 ， 并 推导 课程 的 第 一 
个 机 器 学 习 算法 : Perceptron Learning Algorithm (PLA) 。 


一 、Perceptron Hypothesis Set 


引入 这 样 一 个 例子 : 某 银行 要 根据 用 户 的 年 龄 、 性 别 、 年 收入 等 情况 来 判断 是 否 给 该 
用 户 发 信用 卡 。 现 在 有 训练 样本 D， 即 之 前 用 户 的 信息 和 是 否 发 了 信用 卡 。 这 是 一 个 
典型 的 机 器 学 习 问 题 ， 我 们 要 根据 D， 通 过 A” 在 H 中 选择 最 好 的 h， 得 到 g， 接 近 目 标 
函数 f， 也 就 是 根据 先 验 知识 建立 是 否 给 用 户 发 信用 卡 的 模型 。 银 行 用 这 个 模型 对 以 后 
用 户 进行 判断 : 发 信用 卡 (+1) ， 不 发 信用 卡 (-1) 。 


在 这 个 机 器 学 习 的 整个 流程 中 有 一 个 部 分 非常 重要 : 就 是 模型 选择 ， 即 Hypothesis 
Set。 选 择 什么 样 的 模型 ,很 大 程度 上 会 影响 机 器 学 习 的 效果 和 表现 。 下 面 介 绍 一 个 简 
单 常用 的 Hypothesis Set: 感知 机 (Perceptron) 。 


还 是 刚才 银行 是 否 给 用 户 发 信用 卡 的 例子 ， 我 们 把 用 户 的 个 人 信息 作为 特征 向 量 x， 令 
总 共有 d 个 特征 ， 每 个 特征 赋予 不 同 的 权重 w， 表 示 该 特征 对 输出 (是 否 发 信用 卡 ) 的 
影响 有 多 大 。 那 所 有 特征 的 加 权 和 的 值 与 一 个 设 定 的 阔 什 threshold 进行 比较 : 大 于 这 
个 阅 值 ， 输 出 为 +1， 即 发 信用 卡 ; 小 于 这 个 靖 值 ， 输 出 为 -1， 即 不 发 信用 卡 。 感 知 机 
模型 ， 就 是 当 特 征 加 权 和 与 阅 值 的 差 大 于 或 等 于 0， 则 输出 h(x)=1; SRS 
值 的 差 小 于 0， 则 输出 h(x)=-1， 而 我 们 的 目的 就 是 计算 出 所 有 权 值 w 和 立 值 

threshold, 





e For x = (%, Xo,--- ,Xq) ‘features of customer’, compute a 
weighted ‘score’ and 


m d 
approve credit if 25 wix; > threshold 


s d 
deny credit if be w;X; < threshold 


e y: {+1(good), —1(bad) }, 0 ignored—linear formula h € H are 


d 
h(x) = sign e ma) z wesholdj 


i=1 


为 了 计算 方便 ,通常 我 们 将 阅 值 threshold 当 做 wo， 引 入 一 个 Xo = 1898 Swo the, 
这 样 就 把 threshold 也 转变 成 了 权 值 wo， 简 化 了 计算 。h(x) 的 表达 式 做 如 下 变换 : 


d 
sign (3: mx) -tvesti 
i=1 


d 
= sign (> ws) + (—threshold) - (+1) 


i=1 


h(x) 


Wo Xo 


son( Sinn) 


i=0 


= sign (wx) 


为 了 更 清晰 地 说 明 感 知 机 模型 ， 我 们 假设 Perceptrons 在 二 维 平面 上 ， 即 

h(x) = sign(wo + wit, 十 woz3). BR, wo 十 wie 十 wet, = 0 是 平面 上 
一 条 分 类 直线 ， 直 线 一 侧 是 正 类 (+1) ， 直 线 另 一 侧 是 负 类 (-1) 。 权 重 w 不 同 ， 对 
应 于 平面 上 不 同 的 直线 。 





Perceptrons in R? 
h(x) = sign (Wo + W1X, + W2X2) | 











* customer features x: points on the plane (or points in R?) 
* labels y: o (+1), x (-1) 
e hypothesis h: lines (or hyperplanes in R^) 
一 positive on one side of a line, negative on the other side 
* different line classifies customers differently 


那么 ， 我 们 所 说 的 Perceptron， 在 这 个 模型 上 就 是 一 条 直线 过 称 之 为 linear(binary) 
classifiers。 注 意 一 下 ， 感 知 器 线性 分 类 不 限定 在 二 维 空间 中 ， 在 3D 中 ， 线 性 分 类 用 
平面 表示 ， 在 更 高 维度 中 ， 线 性 分 类 用 超 平面 表示 ;> 即 只 要 是 形 如 w7 zx 的 线性 模型 就 
都 属于 linear(binary) classifiers。 


同时 ， 需 要 注意 的 是 ， 这 里 所 说 的 linear(binary) classifiers 是 用 简单 的 感知 器 模型 建立 
的 ， 线 性 分 类 问题 还 可 以 使 用 logistic regression 来 解决 ， 后 面 将 会 介绍 。 


二 、Perceptron Learning Algorithm(PLA) 


根据 上 一 部 分 的 介绍 ， 我 们 已 经 知道 了 hypothesis set 由 许多 条 直线 构成 。 接 下 来 ,我 
们 的 目的 就 是 如 何 设计 一 个 演算 法 A， 来 选择 一 个 最 好 的 直线 ， 能 将 平面 上 所 有 的 正 
类 和 负 类 完全 分 开 ， 也 就 是 找到 最 好 的 g9， 使 9 ~ f. 


如 何 找到 这 样 一 条 最 好 的 直线 呢 ? 我 们 可 以 使 用 逐 点 修正 的 思想 ， 首 先 在 平面 上 随意 
取 一 条 直线 ， 看 看 哪些 点 分 类 错误 。 然 后 开始 对 第 一 个 错误 点 就 行 修 正 ， 即 变换 直线 
的 位 置 ， 使 这 个 错误 点 变 成 分 类 正确 的 点 。 接 着 ， 再 对 第 二 个 、 第 三 个 等 所 有 的 错误 
分 类 点 就 行 直线 纠正 ， 直 到 所 有 的 点 都 完全 分 类 正确 了 ， 就 得 到 了 最 好 的 直线 。 这 
种 “逐步 修正 ”"， 就 是 PLA 思 想 所 在 。 





ror f= 0,1,... 
Q find a mistake of w; called (Xn); yj») 


sign (w7 Xn) F Voit) 


@ (try to) correct the mistake by 





Wi+1 € Wi + Yn(t)Xn(t) 


... until no more mistakes 
return last w (called wpa) as g 





A 


下 面 介绍 一 下 PLA 是 怎么 做 的 。 首 先 随机 选择 一 条 直线 进行 分 类 。 然 后 找到 第 一 个 分 
类 错误 的 点 ， 如 果 这 个 点 表示 正 类 ， 被 误 分 为 负 类 ， 即 w7 e) < 0， 那 表示 w 和 x 夹 
角 大 于 90 度 ， 其 中 w 是 直线 的 法 向 量 。 所 以 ，x 被 误 分 在 直线 的 下 侧 (相对 于 法 向 量 ， 
法 向 量 的 方向 即 为 正 类 所 在 的 一 侧 ) ， 修 正 的 方法 就 是 使 WX 夹 角 小 于 90 度 。 通 常 做 
法 是 w e w--yz, y = 1， 如 图 右上 角 所 示 ， 一 次 或 多 次 更 新 后 的 w 十 yx 与 x 夹 角 
小 于 90 度 ， 能 保证 x 位 于 直线 的 上 侧 ， 则 对 误 分 为 负 类 的 错误 点 完成 了 直线 修正 。 


同 理 ， 如 果 是 误 分 为 正 类 的 点 ， 即 wf zn( > 0; 那 表示 w 和 x 夹 角 小 于 90 度 ， 其 中 w 
是 直线 的 法 向 量 。 所 以 ，x 被 误 分 在 直线 的 圭 侧 ,修正 的 方法 就 是 使 w 和 x 夹 角 大 于 90 
度 。 通 常 做 法 是 w C— w 十 yz, y 二 /一 ”如 图 右 下 角 所 示 ， 一 次 或 多 次 更 新 后 的 
w+ YX 与 x 夹 角 大 于 90 度 ， 能 保证 x 位 于 直线 的 下 侧 ， 则 对 误 分 为 正 类 的 错误 点 也 完 
成 了 直线 修正 。 


按照 这 种 思想 ， 遇 到 个 错误 点 就 进行 修正 ， 不 断 迭 代 。 要 注意 一 点 : 每 次 修正 直线 ， 
可 能 使 之 前 分 类 正确 的 点 变 成 错误 点 ， 这 是 可 能 发 生 的 。 但 是 没关系 ,不断 迭代 ,不 
断 修正 ， 最 终 会 将 所 有 点 完全 正确 分 类 (PLA 前 提 是 线性 可 分 的 ) 。 这 种 做 法 的 思想 
是 “ 知 错 能 改 ”， 有 人 句 话 形容 它 :“A fault confessed is half redressed." 


实际 操作 中 ， 可 以 一 个 点 一 个 点 地 人 遍历 ,发现 分 类 错误 的 点 就 进行 修正 ， 直 到 所 有 点 
全 部 分 类 正确 。 这 种 被 称 为 Cyclic PLA。 





For 1 0,1,... 
@ find the next mistake of w; called (xn(i), yn(i)) 


sign (w7 Xn(t)) F Yni) 
© correct the mistake by 
Writ & Wi 十 JYn(bXn( 


... until a full cycle of not encountering mistakes 


下 面 用 图 解 的 形式 来 介绍 PLA 的 修正 过 程 : 


X initially 





























x update: 





x update: 9 | 





€ finally | 
s | 
x 

x X o | 

x | 

N | 
VLA o 

yo Nee | 

| 

| 

| 


对 PLA， 我 们 需要 考虑 以 下 两 个 问题 : 

。 PLA 和 迭代 一 定 会 停 下 来 吗 ? 如 果 线 性 不 可 分 怎么 办 ? 

。 PLA 停 下 来 的 时 候 ， 是 否 能 保证 f > g? 如 果 没 有 停 下 来 ， 是 否 有 /9? 
=, Guarantee of PLA 


PLA 什 么 时 候 会 停 下 来 呢 ? 根据 PLA 的 定义 ， 当 找到 一 条 直线 ， 能 将 所 有 平面 上 的 点 
都 分 类 正确 ， 那 么 PLA 就 停止 了 。 要 达到 这 个 终止 条 件 ， 就 必须 保证 D 是 线性 可 分 
(linear separable) 。 如 果 是 非 线性 可 分 的 ， 那 么 ，PLA 就 不 会 停止 。 











(linear separable) not linear separable) not linear separable) 


对 于 线性 可 分 的 情况 ， 如 果 有 这 样 一 条 直线 ， 能 够 将 正 类 和 负 类 完全 分 开 ， 令 这 时 候 


Yt) WH Xt) 2min oW; Xn >0 


PLA 会 对 每 次 错误 的 点 进行 修正 ， 更 新 权重 wt+1 的 值 , 如果 t+1 与 wy 越 来 越 接近 ， 
数学 运算 上 就 是 内 积 越 大 ， 那 表示 Wwt+1 是 在 接近 目标 权重 w/ ， 证 明 PLA 是 有 学 习 效 
果 的 。 所 以 ， 我 们 来 计算 w+1 与 wj 的 内 积 : 


T T 

We Wey = )We(Wr + Yne) Xna) 

Wi Wi + min y;W; xn 
n 


PV 


wf 


V 


Wi + 0. 


从 推导 可 以 看 出 ，wi+1 与 wy 的 内 积 跟 wi 与 wy 的 内 积 相 比 更 大 了 。 似 乎 说 明了 wt1 
更 接近 wp， 但 是 内 积 更 大 ， 可 能 是 向 量 长 度 更 大 了 ， 不 一 定 是 向 量 间 角度 更 小 。 所 
以 ， 下 一 步 ， 我 们 还 需要 证 明 wt+1 与 W 向 量 长 度 的 关系 : 





w; changed only when mistake 
«€» sign (W7X«(5) # Yny € YW Xo) € 0 | 
e mistake ‘limits’ ||w;||? growth, even when updating with ‘longest’ x, 


IW: + YatoXntoll* 
= wal? + 2ysoW? Xe + ncn Xn ll 
iwel? + 0 + ync)Xnc ll 

lwe]? + max || Xnl|? 


2 
[w1 |] 


= 
< 





Wi 只 会 在 分 类 错误 的 情况 下 更 新 ， 最 终 得 到 的 


的 增 量 值 不 超过 
。 也 就 是 说 ，wt 的 增长 被 限制 了 ，2w441 与 wi 向 量 长 度 不 会 差别 大 大 ! 














We || 相 比 | |w? 








maz||z2 


如 果 令 初 始 权 值 wo — 0， 那 么 经 过 T 次 错误 修正 后 ， 有 如 下 结论 : 


Wi. ap 
BS MN ES > yT - constant 
|wg]| wr 


下 面 贴 出 来 该 结论 的 具体 推导 过 程 : 





Given 3 conditions 
1 wy perfectly fitting those data means: 


Yn(t)WF Zn(t) > min Jn UT En >0 (1) 
2 w, changed only when making mistakes means: 
sign(w; pty) X yn) S nW za) € 0 (2) 
3 we make corrections by: 
We = We-1 Yn(t) Tn(t) (3) 


We want to prove after t mistake corrections starting from 0, we will get: 


wf wy 

L——2 VT - constant 
Iw gll lwl] 

it means 2 things: 

1 Because the above equation is less equal than 1, we also prove the T will 

have upper boundary, thus the algorithm will stop at some time; 

2 the left part the above equation means the angle of wy and w+, and their 

angle is decreasing, in other words w: is approaching wy, thus we are on the 

right way to get the solution > 


Here is the prove: AF 
the primary principle is to replace all the variables which i ve equations 
are w; and ||w;|| 


for w; we have: S N 
iu = wr. . * ; 3 
yp Ut = wr (w1 TF Un(t—1)Tn -1) e using ( ) 
> wy Wet + min hf, using (1) 
n 
> wot+T-min "fga applying T times 
n 


> T - min y des. Y 
GY 


fo 


for ||w,|| we have: 


2 2 < < 
|| wel ES Si unl using (3) 
2 2 
= || wes || + 2yn (1-1) 1 Tn(t-1) + || ¥n(e—1)2nce—-1)]| 
2 2 . 
€ will +04 yn yznc-y)| using (2) 
< lwll? + maz |en]? 
n 
€ wol +T- maz lenll? =T- max za 





applying above 2 conclusions to the left part of the equation we finally get: 


























e Pys . T 
a . Ta 
UT wy 7 了 min yj Tn 
T - min yg w7 fn 
~ n 
u T Fn EN 
w+ ||- VT mar |; 
I " 
/T . mi Ta 
y MIN Yn Ws Tn _ 
: = yT - constant 
T " . 
Wt | maa |En |l 
r 
wy w 


< 1, we finally have: 


Because the —, rT 
Jury || Iwr] 


vT-min yn we Tn 








7 S4 
|w | max iz, || 
f n 
maz {lary ll? |o T ? 
> 9 " Tt d R? 
=> < 5 T = 7 
K — min^ Yn Wy Tr p* 
n :, 


上 述 不 等 式 左边 其 实 是 wr 与 wy 夹 角 的 余弦 值 ， 随 着 T 增 大 ， 该 余弦 值 越 来 越 接近 1,， 
即 wr 与 wy 越 来 越 接近 。 同 时 ， 需 要 注意 的 是 ，VT . constant < 1， 也 就 是 说 ， 
迭代 次 数 T 是 有 上 界 的 。 根 据 以 上 证 明 , 我 们 最 终 得 到 的 结论 是 : w+1 与 wy 的 是 随 着 
迭代 次 数 增加 ， 逐 渐 接 近 的 ,和 而且, PLA 最 终 会 停 下 来 (因为 T 有 上 界 ) ， 实 现 对 线性 
可 分 的 数据 集 完 全 分 类 。 


四 、Non-Separable Data 


上 一 部 分 ， 我 们 证 明了 线性 可 分 的 情况 下 ，PLA 是 可 以 停 下 来 并 正确 分 类 的 ， 但 对 于 
非 线 性 可 分 的 情况 ，wj 实 际 上 并 不 存在 ， 那 么 之 前 的 推导 并 不 成 立 ，PLA 不 一 定 会 停 
下 来 。 所 以 ，PLA 虽 然 实现 简单 ， 但 也 有 缺点 : 





simple to implement, fast, works in any dimension d | 













e ‘assumes’ linear separable D to halt 
—property unknown in advance (no need for PLA if we know wy) 


e not fully sure how long halting takes (p depends on wy) 
一 though practically fast 


对 于 非 线 性 可 分 的 情况 ， 我 们 可 以 把 它 当 成 是 数据 集 D 中 掺 杂 了 一 下 noise， 事 实 上 ， 
大 多 数 情况 下 我 们 遇 到 的 D， 都 或 多 或 少 地 掺 杂 了 noise。 这 时 ， 机 器 学 习 流 程 是 这 样 
的 : 


* noise 


unknown target function T 
f: y | ^V 





(ideal credit approval formula) 












training examples 
D: (x1.y1),-:- , (XN, YN 


(historical records in bank) 






final hypothesis 
gf 


(‘learned’ formula to be used) 





hypothesis sef N y 
(set of candidate formula) 


TIRES P. FTL RAS, BÜARSEIEKRET RDI, DDIBENOB 
误 点 ， 取 错误 点 的 个 数 最 少时 的 权重 w: 


* assume ‘little’ noise: yn = f(X») usually 
e ifso,g~fonDs yn = g(X,) usually 
e how about 
N 
Wy + argmin a [yn + sign(w7xn)| 
1 一 1 





一 NP-hard to solve, unfortunately 





事实 证 明 ， 上 面 的 解 是 NP-hard 问 题 ， 难 以 求解 。 然 而 ， 我 们 可 以 对 在 线性 可 分 类 型 
中 表现 很 好 的 PLA 做 个 修改 ， 把 它 应 用 到 非 线性 可 分 类 型 中 ， 获 得 近似 最 好 的 g。 


修改 后 的 PLA 称 为 Packet Algorithm。 它 的 算法 流程 与 PLA 基 本 类 似 ， 首 先 初 始 化 权重 
wo， 计算 出 在 这 条 初始 化 的 直线 中 ， 分 类 错误 点 的 个 数 。 然 后 对 错误 点 进行 修正 ,更 
新 w， 得 到 一 条 新 的 直线 ， 在 计算 其 对 应 的 分 类 错误 的 点 的 个 数 ， 并 与 之 前 错误 点 个 
数 比 较 ， 取 个 数 较 小 的 直线 作为 我 们 当前 选择 的 分 类 直线 。 之 后 ， 再 经 过 n 次 迭代 ， 不 
断 比 较 当 前 分 类 错误 点 个 数 与 之 前 最 少 的 错误 点 个 数 比较 ， 选 择 最 小 的 值 保 存 。 直 到 
迭代 次 数 完成 后 ， 选 取 个 数 最 少 的 直线 对 应 的 w， 即 为 我 们 最 终 想 要 得 到 的 权重 值 。 


initialize pocket weights w 
For t=0,1,--- 


© find a (random) mistake of w; called (xn(i), Ynct)) 
© (try to) correct the mistake by 
Weir We + Yay Xnct) 


© if w;,; makes fewer mistakes than W, replace W by w;.; 


...until enough iterations 
return W (called Wpocxer) as g 


如 何 判断 数据 集 D 是 不 是 线性 可 分 ? 对 于 二 维 数据 来 说 ， 通 常 还 是 通过 肉眼 观察 来 判 
断 的 。 一 般 情 况 下 ，Pocket Algorithm 要 比 PLA 速 度 慢 一 些 。 
五 、 总 结 


本 节 课 主要 介绍 了 线性 感知 机 模型 ， 以 及 解决 这 类 感知 机 分 类 问题 的 简单 算法 : 
PLA。 我 们 详细 证 明了 对 于 线性 可 分 问题 ，PLA 可 以 停 下 来 并 实现 完全 正确 分 类 。 对 
于 不 是 线性 可 分 的 问题 ， 可 以 使 用 PLA 的 修正 算法 Pocket Algorithm 来 解决 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基石 》 课 程 。 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 3 -- Types of 


Learning 


作者 : 红色 石头 公众 号 : AI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 解决 线性 分 类 问题 的 一 个 简单 的 方法 : PLA。PLA 能 够 在 平面 
中 选择 一 条 直线 将 样本 数据 完全 正确 分 类 。 而 对 于 线性 不 可 分 的 情况 ， 可 以 使 用 
Pocket Algorithm 来 处 理 。 本 节 课 将 主要 介绍 一 下 机 器 学 习 有 哪些 种 类 ， 并 进行 归纳 。 


一 、Learning with Different Output Space Y 


我 们 在 上 节 课 引入 的 银行 根据 用 户 个 人 情况 判断 是 否 给 他 发 信用 卡 的 例子 ， 这 是 一 个 
典型 的 二 元 分 类 (binary classification) 问题 。 也 就 是 说 输出 只 有 两 个 ， 一般 y={-1, 
+1}，-1 代 表 不 发 信用 卡 (AŠ) ，+1 代 表 发 信用 卡 (IER) 。 

二 元 分 类 的 问题 很 常见 ， 包 括 信用 卡 发 放 、 垃 圾 邮件 判别 、 患 者 疾病 诊断 、 答 案 正 确 
性 估计 等 等 。 二 元 分 类 是 机 器 学 习 领 域 非常 核心 和 基本 的 问题 。 二 元 分 类 有 线性 模型 
也 有 非 线性 模型 ， 根 据 实 际 问题 情况 ,选择 不 同 的 模型 。 





除了 二 元 分 类 ， 也 有 多 元 分 类 (Multiclass Classification) 问题 。 顾 名 思 义 ， 多 元 分 类 


的 输出 多 于 两 个 ，y={1, 2, …, K}, K>2. 一 般 多 元 分 类 的 应 用 有 数字 识别 、 图 片 内 容 识 
别 等 等 。 





e classify US coins (1c, 5c, 10c, 25c) 
by (size, mass) 
e Y = (16,56, 10c, 25c}, or 
y = {1,2,--- , K} (abstractly) 
e binary classification: special case 
with K — 2 





二 元 分 类 和 多 元 分 类 都 属于 分 类 问题 ， 它 们 的 输出 都 是 离散 值 。 二 对 于 另外 一 种 情 
况 ， 比 如 训练 模型 ， 预 测 房屋 价格 、 股 票 收益 多 少 等 ， 这 类 问题 的 输出 y=R， 即 范围 
在 整个 实数 空间 ， 是 连续 的 。 这 类 问题 ， 我 们 把 它 叫做 回归 (Regression) 。 最 简单 
的 线性 回归 是 一 种 典型 的 回归 模型 。 


除了 分 类 和 回归 问题 ， 在 自然 语言 处 理 等 领域 中 ， 还 会 用 到 一 种 机 器 学 习 问 题 : 结构 
化 学 习 (Structured Learning) 。 结 构 化 学 习 的 输出 空间 包含 了 某 种 结构 在 里 面 ， 它 
的 一 些 解 法 通常 是 从 多 分 类 问题 延伸 而 来 的 ， 比 较 复 杂 。 本 系列 课程 不 会 详细 介绍 
Structured Learning， 有 兴趣 的 读者 可 以 自行 对 它 进 行 更 深入 的 研究 。 


简单 总 结 一 下 ， 机 器 学 习 按 照 输出 空间 划分 的 话 ， 包 括 二 元 分 类 、 多 元 分 类 、 回 归 、 
结构 化 学 习 等 不 同 的 类 型 。 其 中 二 元 分 类 和 回归 是 最 基础 、 最 核心 的 两 个 类 型 ， 也 是 
我 们 课程 主要 介绍 的 部 分 。 


Learning with Different Output Space V 
e binary classification: y = {—1,+1} 
e multiclass classification: Y = {1,2,--- ,K} 
e regression: y = R 

e Structured learning: VY = structures 

e ... and a lot more!! 














unknown target function 
XY 

















training examples krase final hypothesis 
D: (4.1). (Xu. YN a" gaf 


hypothesis set 
H 


—. Learning with Different Data Label yn [s] 





如 果 我 们 拿 到 的 训练 样本 D 既 有 输入 特征 x， 也 有 输出 yn， 那 么 我 们 把 这 种 类 型 的 学 习 
称 为 监督 式 学 习 (Supervised Learning) 。 监 督 式 学习 可 以 是 二 元 分 类 、 多 元 分 类 或 
者 是 回归 ， 最 重要 的 是 知道 输出 标签 yn。 与 监督 式 学 习 相 对 立 的 另 一 种 类 型 是 非 监督 
式 学 习 (Unsupervised learning) 。 非 监督 式 学 习 是 没有 输出 标签 yn 的 ， 典 型 的 非 监 
督 式 学 习 包 括 : 聚 类 (clustering) 问题 ， 比 如 对 网 页 上 新 闻 的 自动 分 类 ; 密度 估计 ， 

比如 交通 路 况 分 析 ; 异常 检测 ， 比 如 用 户 网 络 流量 监测 。 通 常情 况 下 ， 非 监督 式 学 习 
更 复杂 一 些 ， 而 且 非 监督 的 问题 很 多 都 可 以 使 用 监督 式 学 习 的 一 些 算法 思想 来 实现 。 





supervised multiclass classification unsupervised multiclass classification 
+> ‘clustering’ 


介 于 监督 式 和 非 监督 式 学 习 之 间 的 叫做 半 监 督 式 学 习 (Semi-supervised 

Learning) 。 顾 名 思 义 ， 半 监督 式 学 习 就 是 说 一 部 分 数据 有 输出 标签 yn， 而 男 一 部 分 
数据 没有 输出 标签 yn。 在 实际 应 用 中 ， 半 监 督 式 学 习 有 时 候 是 必须 的 ， 比 如 医药 公司 
对 某 些 药物 进行 检测 ， 考 虑 到 成 本 和 实验 人 群 限制 等 问题 ， 只 有 一 部 分 数据 有 输出 标 


Sh. 


监督 式 、 非 监督 式 、 半 监督 式 学 习 是 机 器 学 习 领 域 三 个 主要 类 型 。 除 此 之 外 ， 还 有 一 
种 非常 重要 的 类 型 : 增强 学 习 (Reinforcement Learning) 。 增 强 学 习 中 ， 我 们 给 模 
型 或 系统 一 些 输 入 ， 但 是 给 不 了 我 们 希望 的 真实 的 输出 y， 根 据 模 型 的 输出 反馈 ， 如 果 
反馈 结果 良好 ， 更 接近 真实 输出 ， 就 给 其 正 向 激励 ， 如 果 反 馈 结 果 不 好 ， 偏 离 真 实 输 
出 ， 就 给 其 反 向 激励 。 不 断 通 过 “反馈 -修正 "这 种 形式 ， 一 步 一 步 让 模型 学 习 的 更 好 ， 
这 就 是 增强 学 习 的 核心 所 在 。 增 强 学 习 可 以 类 比 成 训练 宠物 的 过 程 ， 比 如 我 们 要 训练 
狗 狗 坐 下 ， 但 是 狗 狗 无 法 直接 听 懂 我 们 的 指令 “sit down”。 在 训练 过 程 中 ， 我 们 给 狗 狗 
示意 ， 如 果 它 表现 得 好 ， 我 们 就 给 他 奖励 ， 如 果 它 做 跟 sit down 完 全 无 关 的 动作 ,我 
们 就 给 它 小 小 的 惩罚 。 这 样 不 断 修正 狗 狗 的 动作 ， 最 终 能 让 它 按照 我 们 的 指令 来 行 
动 。 实 际 生活 中 ， 增 强 学 习 的 例子 也 很 多 ， 比 如 根据 用 户 点 击 、 选 择 而 不 断 改进 的 广 


简单 忌 结 一 下 ， 机 器 学 习 按 照 数 据 输出 标签 yn 划分 的 话 ， 包 括 监 督 式 学 习 、 非 监督 式 
学 习 、 半 监督 式 学 习 和 增强 学 习 等 。 其 中 ， 上 监督 式 学 习 应 用 最 为 广泛 。 





Learning with Different Data Label yn 
e supervised: all yn 
e unsupervised: no yn 


- e semi-supervised: some yn 
unknown target function : : ME m 
e reinforcement: implicit y; by goodness( Yn) 


... and more!! 






















ni learning ; ， 
training examples final hypothesis 
T. 9 p algorithm yp 
D: (X1, y1); -+> , (XN; YN l gf 


hypothesis set 
H 


=, Learning with Different Protocol f(xn,yn) 
按照 不 同 的 协议 ， 机 器 学 习 可 以 分 为 三 种 类 型 : 
e Batch Learning 


e Online 


e Active Learning 


batch learning 是 一 种 常见 的 类 型 。batch learning 获 得 的 训练 数据 D 是 一 批 的 ， 即 一 次 
性 拿 到 整个 D， 对 其 进行 学 习 建 模 ， 得 到 我 们 最 终 的 机 器 学 习 模 型 。batch learning 在 
实际 应 用 中 最 为 广泛 。 


online 是 一 种 在 线 学 习 模型 ， 数 据 是 实时 更 新 的 ， 根 据 数 据 一 个 个 进来 ， 同 步 更 新 我 
们 的 算法 。 比 如 在 线 邮件 过 滤 系统 ， 根 据 一 封 一 封 邮 件 的 内 容 ， 根 据 当 前 算法 判断 是 
否 为 垃圾 邮件 ， 再 根据 用 户 反 馈 ， 及 时 更 新 当前 算法 。 这 是 一 个 动态 的 过 程 。 之 前 我 
们 介绍 的 PLA 和 增强 学 习 都 可 以 使 用 online 模 型 。 


active learning 是 近 些 年 来 新 出 现 的 一 种 机 器 学 习 类 型 ， 即 让 机 器 具备 主动 问 问题 的 能 
力 ， 例 如 手写 数字 识别 ， 机 器 自己 生成 一 个 数字 或 者 对 它 不 确定 的 手写 字 主 动 提问 。 
active learning 优 势 之 一 是 在 获取 样本 label 比 较 困 难 的 时 候 ， 可 以 节约 时 间 和 成 本 ， 只 
对 一 些 重 要 的 label 提 出 需求 。 


简单 总 结 一 下 ， 按 照 不 同 的 协议 ， 机 器 学 习 可 以 分 为 batch, online, active。 这 三 种 学 
习 类 型 分 别 可 以 类 比 为 : 填 鸭 式 ， 老 师 教 学 以 及 主动 问 问题 。 E 





Learning with Different Protocol f = (Xp, Yn) 
e batch: all known data 

e online: sequential (passive) data 

e active: strategically-observed data 

e ... and more!! 


















unknown target function 
f: X> Y 











training examples hret final hypothesis 
D: (X1: y1): -> (Xy. YN m gaf 


hypothesis set 
H 


P, Learning with Different Input Space X 


上 面 几 部 分 介绍 的 机 器 学 习 分 类 都 是 根据 输出 来 分 类 的 ， 比 如 根据 输出 空间 进行 分 
类 ， 根 据 输出 y 的 标记 进行 分 类 ， 根 据 取 得 数据 和 标记 的 方法 进行 分 类 。 这 部 分 ， 我 们 
将 谈 谈 输入 X 有 哪些 类 型 。 


输入 X 的 第 一 种 类 型 就 是 concrete features。 比 如 说 硬币 分 类 问题 中 硬币 的 尺寸 、 重 量 
等 ; 比如 疾病 诊断 中 的 病人 信息 等 具体 特征 。concrete features 对 机 器 学 习 来 说 最 容 
易 理解 和 使 用 。 


第 二 种 类 型 是 raw features。 比 如 说 手写 数字 识别 中 每 个 数字 所 在 图 片 的 mxn 维 像素 
(A; 比如 语音 信号 的 频谱 等 。raw features 一 般 比较 抽象 ， 经 常 需要 人 或 者 机 器 来 转换 
为 其 对 应 的 concrete features， 这 个 转换 的 过 程 就 是 Feature Transform, 


第 三 种 类 型 是 abstract features。 比 如 某 购 物 网 站 做 购买 预 浊 时 ， 提 供给 参赛 者 的 是 抽 
象 加 密 过 的 资料 编号 或 者 ID ， 这 些 特征 X 完 全 是 抽象 的 ， 没 有 实际 的 物理 含义 。 所 以 
对 于 机 器 学 习 来 说 是 比较 困难 的 ， 需 要 对 特征 进行 更 多 的 转换 和 提取 。 

简单 忌 结 一 下 ， 根 据 输入 X 类 型 不 同 ， 可 以 分 为 concetet, raw, abstract。 将 一 些 抽象 


的 特征 转换 为 具体 的 特征 ， 是 机 器 学 习 过 程 中 非常 重要 的 一 个 环节 。 在 《机 器 学 习 技 
法 》 课 程 中 ， 我 们 再 详细 介绍 。 











Learning with Different Input Space X 


* concrete: sophisticated (and related) 
physical meaning 


* raw: simple physical meaning 
e abstract: no (or little) physical meaning 
e ... and more!! 






unknown target function 
f: X > V 


























"ni learning : | 
training examples final hypothesis 
D: (X1. yn). -- (Xu. YN n dm 







五 、 总 结 。 


本 节 课 主要 介绍 了 机 器 学 习 的 类 型 ， 包 括 Out Space, Data Label, Protocol, Input 
Space 四 种 类 型 。 


ə Learning with Different Output Space VY 
[classification], [regression], structured 
e Learning/with Different Data Label yn 
[supervised], Gn/semi-supervised, reinforcement 
e Learning-with Different Protocol f = (Xp, Yn) 
[batch], online, active 
e Learning with Different Input Space X 
[concrete], raw, abstract 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 。 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 4 -- Feasibility of 


Learning 


VES: 红色 石头 ARE: AË (id: redstonewill) 


上 节 课 ， 我 们 主要 介绍 了 根据 不 同 的 设 定 ， 机 器 学 习 可 以 分 为 不 同 的 类 型 。 其 中 , da 
督 式 学 习 中 的 二 元 分 类 和 回归 分 析 是 最 常见 的 也 是 最 重要 的 机 器 学 习 问题 。 本 节 课 ， 
我 们 将 介绍 机 器 学 习 的 可 行 性 ， 讨 论 问 题 是 否 可 以 使 用 机 器 学 习 来 解决 。 


一 、Learning is Impossible 


首先 ， 考 虑 这 样 一 个 例子 ， 如 下 图 所 示 ， 有 3 个 label 为 -1 的 九宫 格 和 3 个 label 为 +1 的 九 
宫 格 。 根 据 这 6 个 样本 ， 提 取 相 应 label 下 的 特征 ， 预 测 右边 九宫 格 是 属于 -1 还 是 +1? 
结果 是 ， 如 果 依 据 对 称 性 ， 我 们 会 把 它 归 为 +1; 如 果 依 据 九 宫 格 左上 角 是 否 是 黑色 ， 
我 们 会 把 它 归 为 -1。 除 此 之 外 ， 还 有 根据 其 它 不 同 特征 进行 分 类 ， 得 到 不 同 结果 的 情 
况 。 而 且 ， 这 些 分 类 结果 貌似 都 是 正确 合理 的 ， 因 为 对 于 6 个 训练 样本 来 说 ,我 们 选择 
的 模型 都 有 很 好 的 分 类 效果 。 


whatever you say about g(x), 





truth f(x) = +1 because ... 
e symmetry = +1 


e (black or white count = 3) or 
(black count = 4 and 
middle-top black) = +1 


truth f(x) = —1 because ... 
* left-top black = -1 


e middle column contains at 
most 1 black and right-top 
white = -1 












再 来 看 一 个 比较 数学 化 的 二 分 类 例子 ， 输 入 特征 x 是 二 进 制 的 、 三 维 的 ， 对 应 有 8 种 输 
入 ， 其 中 训练 样本 D 有 5 个 。 那 么 ， 根 据 训 练 样本 对 应 的 输出 y， 假 设 有 8 个 





是 在 另外 3 个 测试 数据 上 ， 不 同 的 hypothesis 表 现 有 好 有 坏 。 在 已 知 数据 D 上 ,，9 e f 
;但 是 在 D 以 外 的 未 知 数据 上 ，g x j 不 一 定 成 立 。 而 机 器 学 习 目 的 ， 恰 恰 是 希望 我 
们 选择 的 模型 能 在 未 知 数据 上 的 预测 与 真实 结果 是 一 致 的 ， 而 不 是 在 已 知 的 数据 集 D 
上 寻求 最 佳 效果 。 





x y g f fo h fa fs fs E fs 

000 | o o o o o O 0 0 0 O 
nn Xx x x x x X x x 

D x x x x x X X x 
011/| o o o o o O O O O O 
nn, x x x X X X X x 

? o o o O X X X X 

? © O X X © O X X 

? o X o X O X oO X 





这 个 例子 告诉 我 们 ， 我 们 想 要 在 D 以 外 的 数据 中 更 接近 目标 函数 似乎 是 做 不 到 的 ， 只 
能 保证 对 D 有 很 好 的 分 类 结果 。 机 器 学 习 的 这 种 特性 被 称 为 没有 免费 午餐 (No Free 
Lunch) 定理 。NFL 定 理 表 明 没 有 一 个 学 习 算 法 可 以 在 任何 领域 总 是 产生 最 准确 的 学 
习 器 。 不 管 采 用 何 种 学 习 算法 ， 至 少 存 在 一 个 目标 函数 ， 能 够 使 得 随机 猜测 算法 是 更 
好 的 算法 。 平 常 所 说 的 一 个 学 习 算 法 比 另 一 个 算法 更 “优越 "'， 效 果 更 好 ， 只 是 针对 特 
定 的 问题 ， 特 定 的 先 验 信息 ， 数 据 的 分 布 ， 训 练 样本 的 数目 ， 代 价 或 奖励 函数 等 。 从 
这 个 例子 来 看 ，NFL 说 明了 无 法 保证 一 个 机 器 学 习 算法 在 D 以 外 的 数据 集 上 一 定 能 分 
类 或 预测 正确 ， 除 非 加 上 一 些 假设 条 件 ， 我 们 以 后 会 介绍 。 


—. Probability to the Rescue 


从 上 一 节 得 出 的 结论 是 : 在 训练 集 D 以 外 的 样本 上 ， 机 器 学 习 的 模型 是 很 难 ， 似 乎 做 
不 到 正确 预测 或 分 类 的 。 那 是 否 有 一 些 工具 或 者 方法 能 够 对 未 知 的 目标 函数 做 一 些 推 
论 ， 让 我 们 的 机 器 学 习 模 型 能 够 变 得 有 用 呢 ? 

如 果 有 一 个 装 有 很 多 (数量 很 大 数 不 过 来 ) 橙色 球 和 绿色 球 的 罐子 ， 我 们 能 不 能 推断 
橙色 球 的 比例 u? 统计 学 上 的 做 法 是 ， 从 罐子 中 随机 取出 N 个 球 ， 作 为 样本 ， 计 算 这 N 
个 球 中 橙色 球 的 比例 v， 那 么 就 估计 出 缸 子 中 橙色 球 的 比例 约 为 v。 





mple 







N marbles sampled independently, with 


orange fraction = v, 
green fraction = 1 — v, 


now v known 







assume 
orange probability = p, 

green probability = 1 — m, 

with y unknown 


zh Ed ZG 


XR GRREXBS SUA B6 a i BAe TS SES EERIE — EEE? 答案 是 否定 的 。 但 是 从 
概率 的 角度 来 说 ， 样 本 中 的 v 很 有 可 能 接近 我 们 未 知 的 u。 -下 面 从 数学 推导 的 角度 来 看 v 


与 u 是 否 相 近 。 


已 知 u 是 缸 子 里 栖 色 球 的 比例 ，v 是 N 个 抽取 的 样本 中 橙色 球 的 比例 。 当 N 足 够 大 的 时 
候 ，v 接 近 于 u。 这 就 是 Hoeffding's inequality: 


P||v — u| >e] € 2exp(—2e? N) 


Hoeffding 不 等 式 说 明 当 N 很 大 的 时 候 ，v 与 u 相 差 不 会 很 大 ， 它 们 之 间 的 差 值 被 限定 在 
之 内 。 我 们 把 结论 v=u 称 为 probably approximately correct(PAC)。 


e valid for all N and « sample of size N 


e does not depend on p, 
no need to ‘know’ 1: 
e larger sample size N or 


looser gap e 
=> higher probability for ‘v ~ p’ 





bin 


if large N, can probably infer 
unknown y by known v | 


=, Connection to Learning 





下 面 ， 我 们 将 罐子 的 内 容 对 应 到 机 器 学 习 的 概念 上 来 。 机 器 学 习 中 hypothesis 与 目标 
函数 相等 的 可 能 性 ， 类 比 于 色 子 中 楼 色 球 的 概率 问题 ; 色 子 里 的 一 颗 颗 弹 珠 类 比 于 机 
器 学 习 样 本 空间 的 x; 橙色 的 弹 珠 类 比 于 h(x) 与 f 不 相等 ; 绿色 的 弹 珠 类 比 于 h(x) 与 f 相 
F, 从 罐子 中 抽取 的 N 个 球 类 比 于 机 器 学 习 的 训练 样本 D， 且 这 两 种 抽样 的 样本 与 总 体 
样本 之 间 都 是 独立 同 分 布 的 。 所 以 呢 ， 如 果 样 本 N 够 大 ， 且 是 独立 同 分 布 的 ， 那 么 ， 
从 样本 中 h(x) A f(z) 的 概率 就 能 推导 在 抽样 样本 外 的 所 有 样本 中 h(x) A f(z) 的 概 


ZEB 
率 是 多 少 . 


e unknown orange prob. ju 
e marble e € bin 

e orange e 

e greene 

e size-N sample from bin 


* fixed hypothesis h(x) = target f(x) 
。 XEX 
e his wrong € h(x) z f(x) 
* his right & ^x) = f(x) 
e check hon D = {(Xn, Yn )} 
T6) 





of i.i.d. marbles with i.i.d. X, 

e h(x) # f(x) 
if large N & i.i.d. x,, can probably infer e h(x) = f(x) 
unknown [h(x) z f(x)] probability 
by known [h(xn) Æ Yn} fraction 





映射 中 最 关键 的 点 是 讲 抽样 中 楼 球 的 概率 理解 为 样本 数据 集 D 上 h(x) 错 误 的 概率 ， 以 此 
推算 出 在 所 有 数据 上 h(x) 错 误 的 概率 ， 这 也 是 机 器 学 习 能 够 工作 的 本 质 ， 即 我 们 为 喻 
在 采样 数据 上 得 到 了 一 个 假设 ,就 可 以 推 到 全 局 呢 ?” 因 为 两 者 的 错误 率 是 PAC 的 ， 只 
要 我 们 保证 前 者 小 ， 后 者 也 就 小 了 。 








learning 


training examples 
9 p algorithm 


D: (X3. y1); -> , (XN, YN 


这 里 我 们 引入 两 个 值 B;n, (h)MEou (h). Ein (hh) 表 示 在 抽样 样本 中 ，h(x) 与 yn 不 相 
等 的 概率 ; Eou (hh) 表示 实际 所 有 样本 中 ，h(x) 与 f(x) 不 相等 的 概率 是 多 少 。 


unknown Ecout(h) = KA [h(x) 2 f(x)] 


N 
by known En(h) = ġ » [h(Xn) Æ ynl. 


同样 ， 它 的 Hoeffding's inequality 可 以 表示 为 : 
Pl|Bin(h) —\Bou(h)| > €] € 2ezp(- 2€ N) 


AEE, Ein(h) = Eout(h)to@PACHY, 如果 Bi (h) © Eout(h), Ein (h) 
很 小 ， 那 么 就 能 推断 出 Bs ( 九 ) 很 小 ， 也 就 是 说 在 该 数据 分 布 P 下 ，h 与 休 常 接近 ， 机 
器 学 习 的 模型 比较 准确 。 


一 般 地 ，h 如 果 是 固定 的 ，N 很 大 的 时 候 ，Ei (h) ~ Es (hh)， 但 是 并 不 意味 着 
gx f。 因 为 h 是 固定 的 ， 不 能 保证 Bi (hh) 足 够 小 ， 即 使 Bin (h) z Bowt (hh)， 也 可 
SERE ES (hh) 偏 大 。 所 以 ， 一 般 会 通过 演算 法 A， 选 择 最 好 的 nh， 使 Bin, (及 ) 足 够 小 ， 从 
MOREL ow ( 刀 ) 很 小 。 固 定 的 n， 使 用 新 数据 进行 测试 ， 验 证 其 错误 率 是 多 少 、。 





unknown target function unknown 
f: X > Yy P on ¥ 


(ideal credit approval formula) ‘ ` 
Ky. X2,- 





verifying examples 
D: (X4. y1): za (Xu. YN 


(historical records in bank) (given formula to be verified) 







one 
hypothesis 
h 






(one candidate formula) 


Pd. Connection to Real Learning 


hy ho hm 
Eout( h1) Eour(he) Eout(hw) 








ho^ ah ^ae. P 


"^ .- © Ger 7/9 wy UON CQ V A 3... ....-- |/ md d @ @ i 
o — T aži hE 


Y 


| © 0è X © ecce oo CE EE E E T 
En(h ) Ein(h2) Ein(hm) 


假设 现在 有 很 多 罐子 M 个 ( 即 有 M 个 hypothesis) ， 如 果 其 中 某 个 缸 子 抽样 的 球 全 是 绿 
色 ， 那 是 不 是 应 该 选择 这 个 罐子 呢 ” 我 们 先 来 看 这 样 一 个 例子 : 150 个 人 抛 硬 币 ， 那 
么 其 中 至 少 有 一 个 人 连续 5 次 硬币 都 是 正面 朝 上 的 概率 是 


31 
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可 见 这 个 概率 是 很 大 的 ， 但 是 能 否 说 明 5 次 正面 朝 上 的 这 个 硬币 具有 代表 性 呢 答案 是 
否定 的 ! 并 不 能 说 明 该 硬币 单 次 正面 朝 上 的 概率 很 大 ， 其 实 都 是 0.5。 一 样 的 道理 ， 抽 
到 全 是 绿色 求 的 时 候 也 不 能 一 定 说 明 那 个 罐子 就 全 是 绿色 球 。 当 罐子 数目 很 多 或 者 抛 
硬币 的 人 数 很 多 的 时 候 ， 可 能 引发 Bad Sample, Bad Sample 就 是 in, 和 Bowt 差别 很 
大 ， 即 选择 过 多 市 来 的 负面 影响 ， 选 择 过 多 会 恶化 不 好 的 情形 。 





根据 许多 次 抽样 的 到 的 不 同 的 数据 集 D，Hoeffding's inequality 保 证 了 大 多 数 的 D 都 是 
比较 好 的 情形 ( 即 对 于 某 个 h， 保 证 Bij, © Eo) ， 但 是 也 有 可 能 出 现 Bad Data, BJ 
Bin 和 Bowt 差 别 很 大 的 数据 集 D， 这 是 小 概率 事件 。 












TD | D | [Pus | [Dl Hosfding 
Fh |BAb| | | | | BAD || Pp[BAD Pforh]z 
m| [emo] | | | _|| Po [BAD Dior he] <... 
Lh [BAD | BAD | | | _| BAD | Pp[BAD Dior hy] « ... 
fe ID rsen enn | 

Thu [BAD {|__| | _| BAD || P» [BAD Dior Pu) < 


ral [BAD[BAD| |_| [BAD]? 












也 就 是 说 ， 不 同 的 数据 集 忆 , ， 对 于 不 同 的 hypothesis， 有 可 能 成 为 Bad Data, R 
D, £t hypothesis L=Bad Data， 那 么 乙 , 就 是 Bad Data。 只 有 当 万 ,在 所 有 的 
hypothesis 上 都 是 好 的 数据 ， 才 说 明 刀 ,不 是 Bad Data, /可 以 自由 选择 演算 法 A 进行 建 
模 。 那 么 ， 根 据 Hoeffding's inequality, Bad Data 的 上 界 可 以 表示 为 连 级 (union 
bound) 的 形式 : 


Pp[BAD D] 

=  Pp[BAD D for h, or BAD D for h» or ... or BAD D for hy] 

<  Pp[BAD D for hi] 4- Pp[BAD D for ho] +... + Pp[BAD D for hy] 
(union bound) 


< 2exp (-2&N) 4-2 exp (-2eN) +...+2exp (-2eN) 
= 2Mexp (-2eN) 


其 中 ，M 是 hypothesis 的 个 数 ，N 是 样本 D 的 数量 ，e 是 参数 。 该 union bound 表 明 ， 当 
M 有 限 ， 且 N 足 够 大 的 时 候 ，Bad Data 出 现 的 概率 就 更 低 了 ， 即 能 保证 D 对 于 所 有 的 h 
AA Ein 7 五 ou ， 满 足 PAC， 演 算法 A 的 选择 不 受 限 制 。 那 么 满足 这 种 union bound 
的 情况 ， 我 们 就 可 以 和 之 前 一 样 ， 选 取 一 个 合理 的 演算 法 (PLA/pocket) ， 选 择 使 
五 im 最 小 的 ji 作为 矩 g， 一 般 能 够 保证 9 = f, 即 有 不 错 的 泛 化 能 力 。 

所 以 ， 如 果 hypothesis 的 个 数 M 是 有 限 的 ，N 足 够 大 ， 那 么 通过 演算 法 A 任 意 选 择 一 个 


ABg, BA Ein £z owt 成立; 同时 ， 如 果 找 到 一 个 矩 g， 使 尼 n” ~ 0，PAC 就 能 保证 
Fou 六 0。 至此， 就 证 明了 机 器 学 习 是 可 行 的 。 





unknown target function unknown 
f: X> Y Pon X 
deal credit approval formula) 
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training examples € iei 
D: (X1. yi). -> (Xu. YN Bir m 





final hypothesis 
gaf 









H 
M = oc? (like perceptrons) 
FE O7 ORS EER 一 See you in the next lectures | 


但 是 ， 如 上 面 的 学 习 流程 图 右 下 角 所 示 ， 如 果 M 是 无 数 个 ， 例 如 之 前 介绍 的 PLA 直 线 
有 无 数 条 ， 是 否 这 些 推论 就 不 成 立 了 呢 ” 是 否 机 器 就 不 能 进行 学 习 呢 ”这 些 内 容 和 问 
题 ,我 们 下 节 课 再 介绍 。 


五 、 总 结 


本 节 课 主要 介绍 了 机 器 学 习 的 可 行 性 。 首 先 引 入 NFL 定 理 ， 说 明 机 器 学 习 无 法 找到 一 
个 和 矩 g 能 够 完全 和 目标 函数 人 一样。 接着 介绍 了 可 以 采用 一 些 统计 上 的 假设 ， 例 如 
Hoeffding 不 等 式 ， 建 立 Bin, 和 bowt 的 联系 ， 证 明 对 于 某 个 h， 当 N 足 够 大 的 时 候 ，Ei, 
和 Eowt 是 PAC 的 。 最后， 对 于 h 个 数 很 多 的 情况 ， 只 要 有 h 个 数 M 是 有 限 的 ， 且 N 足 够 
大 ， 就 能 保证 Bin, 污 Bout, 证明 机 器 学 习 是 可 行 的 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 。 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 5 -- Training versus 
Testing 


VES: 红色 石头 ARE: Al 有 道 (id: redstonewill) 


上 节 课 ， 我 们 主要 介绍 了 机 器 学 习 的 可 行 性 。 首 先 ， 由 NFL 定 理 可 知 ， 机 器 学 习 貌 似 
是 不 可 行 的 。 但 是 ， 随 后 引入 了 统计 学 知识 ， 如 果 样 本 数据 足够 大 ， 且 hypothesis 个 
数 有 限 ， 那 么 机 器 学 习 一 般 就 是 可 行 的 。 本 节 课 将 讨论 机 器 学 习 的 核心 问题 ， 严 格 证 
明 为 什么 机 器 可 以 学 习 。 从 上 节 课 最 后 的 问题 出 发 ， 即 当 hypothesis 的 个 数 是 无 限 多 
的 时 候 ， 机 器 学 习 的 可 行 性 是 否 仍 然 成 立 ? 


一 、Recap and Preview 


我 们 先 来 看 一 下 基于 统计 学 的 机 器 学 习 流 程 图 : 


unknown target function unknown 
f: X > Yy Pon X 
ideal credit approval formula n 


- 
" -- 
- - - 
- 
= 












learning 
algorithm 






final hypothesis 
gf 


H 
ipee o Eou(9) = , En(g) = 0 
BO test train 


该 流程 图 中 ， 训 练 样 本 D 和 最 终 测试 h 的 样本 都 是 来 自 同一 个 数据 分 布 ， 这 是 机 器 能 
学 习 的 前 提 。 另 外 ， 训 练 样本 D 应 该 足够 大 ， 且 hypothesis set 的 个 数 是 有 限 的 ， 这 样 
根据 霍 夫 丁 不 等 式 ， 才 不 会 出 现 Bad Data, 保证 Bi 7 Bjwt， 即 有 很 好 的 泛 化 能 
力 。 同 时 ， 通 过 训练 ， 得 到 使 i, 最 小 的 n,， 作 为 模型 最 终 的 矩 g，g 接 近 于 目标 函数 。 


这 里 ， 我 们 总 结 一 下 前 四 节 课 的 主要 内 容 : 第 一 节 课 ， 我 们 介绍 了 机 器 学 习 的 定义 ， 
目标 是 找 出 最 好 的 矩 g， 使 9 ~ f, 保 证 Pou:(9) e 0; BIR, RMATA. p 





Ej, © 0， 可 以 使 用 PLA、pocket 等 演算 法 来 实现 ; 第 三 节 课 ， 我 们 介绍 了 机 器 学 习 
的 分 类 ， 我 们 的 训练 样本 是 批量 数据 (batch) ， 处 理 监督 式 (supervised) 二 元 分 类 
(binary classification) 问题 ; 第 四 节 课 ， 我 们 介绍 了 机 器 学 习 的 可 行 性 ， 通 过 统计 
学 知识 ,把 Bin, (9) 5 Lou (9) 联 系 起 来 ， 证 明了 在 一 些 条 件 假设 下 ， 

Bin(g) © Eou (9) 成 立 。 


for batch & supervised binary classification, g = f —— Eour(g) = 0 
———— O — ‘wan roe! 


lecture 3 lecture 1 


achieved through Eout(9) = En(g) and E,(g) = 0 
ee” | —— 


lecture 4 lecture 2 


这 四 节 课 总 结 下 来 ， 我 们 把 机 器 学 习 的 主要 目标 分 成 两 个 核心 的 问题 : 


© Ein(g) © Eout(g) 
. E;n (9) 足 够 小 


上 节 课 介绍 的 机 器 学 习 可 行 的 一 个 条 件 是 hypothesis set 的 个 数 M 是 有 限 的 ， 那 M 跟 上 
面 这 两 个 核心 问题 有 什么 联系 呢 ? 


我 们 先 来 看 一 下 ， 当 M 很 小 的 时 候 ， 由 上 节 课 介绍 的 霍 夫 丁 不 等 式 ， 得 到 

Ein(g) x Bowt (9)， 即 能 保证 第 一 个 核心 问题 成 立 。 但 M 很 小 时 ， 演 算法 A 可 以 选择 
的 hypothesis 有 限 ， 不 一 定 能 找到 使 in (9) 足 够 小 的 hypothesis， 即 不 能 保证 第 二 个 
核心 问题 成 立 。 当 M 很 太 的 时 候 ， 同 样 由 霍 夫 丁 不 等 式 ，Bin, (9)5 Eou (9) 的 差距 可 
能 比较 大 ， 第 一 个 核心 问题 可 能 不 成 立 。 而 M 很 大 ， 使 的 演算 法 A 的 可 以 选择 的 
hypothesis 就 很 多 ， 很 有 可 能 找到 一 个 hypothesis， 使 Bin(g) 足 够 小 ， 第 二 个 核心 问 
题 可 能 成 立 。 


Q can we make sure that Fout(g) is close enough to Ein(g)? 
can we make Ein(g) small enough? 


© Yes!, 
P[BAD] < 2 - M - exp(...) 


© Nol, too few choices 




















Q No!, 
P[BAD] < 2 - M - exp(...) 


® Yes!, many choices 





从 上 面 的 分 析 来 看 ，M 的 选择 直接 影响 机 器 学 习 两 个 核心 问题 是 否 满足 ，M 不 能 太 大 
也 不 能 太 小 。 那 么 如 果 M 无 限 大 的 时 候 ， 是 否 机 器 就 不 可 以 学 习 了 呢 ? 例如 PLA 算 法 
中 直线 是 无 数 条 的 ， 但 是 PLA 能 够 很 好 地 进行 机 器 学 习 ， 这 又 是 为 什么 呢 ” 如 果 我 们 
能 将 无 限 大 的 M 限 定 在 一 个 有 限 的 7 二 内 ， 问 题 似乎 就 解决 了 。 


—.. Effective Number of Line 
我 们 先 看 一 下 上 节 课 推导 的 霍 夫 本 不等式 : 
P| Fin (9) — Eout(g)| > | € 2: M- ezp( 一 2e N) 


其 中 ，M 表 示 hypothesis 的 个 数 。 每 个 hypothesis 下 的 BAD events Bm 级 联 的 形式 满 
足下 列 不 等 式 : 


P{B, or B5 or --- By] < PIBi|+ P[B9] +--+ P[By] 


4M = oo 时 ， 上 面 不 等 式 右边 值 将 会 很 大 ， 似 乎 说 明 BAD events A, E;n (9g) 与 
Eo (9g) 也 并 不 接近 。 但 是 BAD events Bi 级 联 的 形式 实际 上 是 扩大 了 上 界 ，union 
bound 过 大 。 这 种 做 法 假设 各 个 hypothesis 之 间 没 有 交集 ， 这 是 最 坏 的 情况 ， 可 是 实际 
上 往往 不 是 如 此 ， 很 多 情况 下 ， 都 是 有 交集 的 ,也 就 是 说 M 实 际 上 没 那 么 大 ， 如 下 图 
所 示 : 


B; 


也 就 是 说 union bound 被 估计 过 高 了 (over-estimating) 。 所 以 ， 我 们 的 目的 是 找 出 不 
同 BAD events 之 间 的 重 苇 部 分 ， 也 就 是 将 无 数 个 hypothesis 分 成 有 限 个 类 别 |。 


如 何 将 无 数 个 hypothesis 分 成 有 限 类 呢 ? 我 们 先 来 看 这 样 一 个 例子 ， 假 如 平面 上 用 直 
线 将 点 分 开 ， 也 就 跟 PLA 一 样 。 如 果 平 面 上 只 有 一 个 点 x1， 那 么 直线 的 种 类 有 两 种 : 
一 种 将 x1 划 为 +1， 一 种 将 x1 划 为 -1: 








2 kinds: hy-like(x;) = o Or ho-like(x;) = x 





如 果 平 面 上 有 两 个 点 x1、x2， 那 么 直线 的 种 类 共 4 种 : x1、x2 都 为 +1，x1、x2 都 
为 -1，x1 为 +1 且 x2 为 -1，x1 为 -1 且 x2 为 +1: 





always 8 for three inputs? | x o 


但 是 ， 在 三 个 点 的 情况 下 ， 也 会 出 现 不 能 用 一 条 直线 划分 的 情况 : 





x 
o 
o 
X 
X 
X 





x 
x 
o 
6: 
‘fewer than 8' when degenerate 
(e.g. collinear or same inputs) | = x 
x o 
x o 
也 就 是 说 ， 对 于 平面 上 三 个 点 ， 不 能 保证 所 有 的 8 个 类 别 都 能 被 一 条 直线 划分 。 那 如 果 
是 四 个 点 x1、x2、x3、x4， 我 们 发 现 ， 平面 上 找 不 到 一 条 直线 能 将 四 个 点 组 成 的 16 个 


类 别 完全 分 开 ， 最 多 只 能 分 开 其 中 的 14 类 ， 即 直线 最 多 只 有 人 4 种 : 


for four inputs X. Xo, X4. X4 


"1 





经 过 分 析 ， 我 们 得 到 平面 上 线 的 种 类 是 有 限 的 ，1 个 点 最 多 有 2 种 线 ，2 个 点 最 多 有 4 种 
线 ，3 个 点 最 多 有 8 种 线 ，4 个 点 最 多 有 14 (< 24) 种 线 等 等 。 我 们 发 现 ， 有 效 直 线 的 
数量 总 是 满足 < 2”， 其 中 ，N 是 点 的 个 数 。 所 以 ， 如 果 我 们 可 以 用 effective(N) 代 替 
M， 霍 夫 丁 不等式 可 以 写成 : 


P||E;,(g) — Eout(g)| > e] € 2- ef fective(N) - exp(—2e? N) 


ExXXlleffective(N)«2" ， 如 果 能 够 保证 effective(N)<<2” ， 即 不 等 式 右边 接近 于 零 ， 那 
么 即使 M 无 限 大 ， 直 线 的 种 类 也 很 有 限 ， 机 器 学 习 也 是 可 能 的 。 





e must be < 2" (why?) 
。finite ‘grouping’ of infinitely-many lines € H | | N | effective(N) 
* wish: 


P [|E(g) — Eou(9)| > €] 
< 2-effective(N) - exp (-2&N) 








if (4) effective(N) can replace M and 


(2) effective(N) « 2" 
learning possible with infinite lines :-) 





=, Effective Number of Hypotheses 


接 下 来 先 介绍 一 个 新 名 词 : 二 分 类 (dichotomy) 。dichotomy 就 是 将 空间 中 的 点 (A 
如 二 维 平 面 ) 用 一 条 直线 分 成 正 类 ( 蓝 色 o) 和 负 类 (红色 x) 。 令 H 是 将 平面 上 的 点 
用 直线 分 开 的 所 有 hypothesis h 的 集合 ，dichotomy H 与 hypotheses H 的 关系 是 : 
hypotheses H 是 平面 上 所 有 直线 的 集合 , 个 数 可 能 是 无 限 个 ， 而 dichotomy H 是 平面 
上 能 将 点 完全 用 直线 分 开 的 直线 种 类 ， 它 的 上 界 是 2 。 接 下 来 ， 我 们 要 做 的 就 是 尝试 
用 dichotomy 代 蔡 M。 


e Call 


h(x1, X2,...,XN) = (h(X1), A(x2),..., A(xw)) € (x,o)" 


a dichotomy: hypothesis ‘limited’ to the eyes of X1. X2. .... XN 


e MRi X2, ..., Xy): 
all dichotomies ‘implemented’ by H on X1. X2,..., XN 


| | hypotheses H | dichotomies H(x;, Xo. .... Xw) 
reg. [_alllines in R 





possibly infinite upper bounded by 2 


再 介绍 一 个 新 的 名 词 : 成 长 函数 (growth function) , icAmy(A). RIIKESZSES 
义 是 : 对 于 由 N 个 点 组 成 的 不 同 集合 中 ， 某 集合 对 应 的 dichotomy 最 大 ， 那 么 这 个 
dichotomy 值 就 是 my (H), "RS. ERIR2 : 


Fk 





m4(N)- max  [JH(X4.Xo,....Xy)| 
X4.X5 


reret XycX 


成 长 函数 其 实 就 是 我 们 之 前 讲 的 effective lines 的 数量 最 大 值 。 根 据 成 长 函数 的 定义 ， 
二 维 平面 上 ，my (A )BEND WKAR: 





接 下 来 ,我们 讨论 如 何 计算 成 长 函数 。 先 看 一 个 简单 情况 ， 一 维 的 Positive Rays: 


h(x) = 一 | | h(r)- +1 


a 





Ti T5 T3 md TN 


若 有 N 个 点 ， 则 整个 区 域 可 分 为 N+1 段 ， 很 容易 得 到 其 成 长 函数 mpg(N) =N +1. 
注意 当 N 很 大 时 ，(N +1) << 2”， 这 是 我 们 希望 看 到 的 。 


另 一 种 情况 是 一 维 的 Positive Intervals: 


Ti To T3 Tr. TN 


它 的 成 长 函数 可 以 由 下 面 推导 得 出 : 





one dichotomy for each ‘interval kind’ 


mx(N) = (a) +1 


interval ends in N + 1 spots all x 


1,2 1 
zN +5N+1 


这 种 情况 下 ,mp (N) = 4N?+4N+1<< 2", tNGXEBSEHER, AERE 
的 。 

再 来 看 这 个 例子 ， 假 设 在 二 维 空间 里 ， 如 果 hypothesis 是 凸 多 边 形 或 类 圆 构成 的 封闭 
曲线 ， 如 下 图 所 示 ， 左 边 是 convex 的 ， 右 边 不 是 convex 的 。 那 么 ， 它 的 成 长 函数 是 多 


少 呢 ? 





convex regionim blue non-convex region 


当 数据 集 D 按 照 如 下 的 凸 分 布 时 ， 我 们 很 容易 计算 得 到 它 的 成 长 函数 mr = 2%, ix 
种 情况 下 ，N 个 点 所 有 可 能 的 分 类 情况 都 能 够 被 hypotheses set 履 盖 ， 我 们 把 这 种 情形 
称 为 shattered。 也 就 是 说 ， 如 果 能 够 找到 一 个 数据 分 布 集 ，hypotheses set 对 N 个 输 
入 所 有 的 分 类 情况 都 做 得 到 ， 那 么 它 的 成 长 函数 就 是 2 。 








四 、Break Point 


上 一 小 节 ， 我 们 介绍 了 四 种 不 同 的 成 长 函数 ， 分 别 是 : 


* positive rays: NC m,(N) =N+1 
* positive intervals: ” m(N) = 3N* + 3N+1 
。 convex sets: ZA mj (N) = 2N 
* 2D perceptrons: mx (N) < 2" in some cases 


Hh, positive rays 和 positive interVals 的 成 长 函数 都 是 polynomial 的 ， 如 果 用 mg 代 
蔡 M 的 话 ， 这 两 种 情况 是 比较 好 的 。 而 convex sets 的 成 长 函数 是 exponential 的 ， 即 等 
于 M， 并 不 能 保证 机 器 学 习 的 可 行 性 。 那 么 ， 对 于 2D perceptrons， 它 的 成 长 函数 究 
竟 是 polynomial 的 还 是 exponential 的 呢 ? 


den perceptrons， 我 们 之 前 分 析 了 3 个 点 ， 可 以 做 出 8 种 所 有 的 dichotomy， 而 4 个 
点 ， 就 无 法 做 出 所 有 16 个 点 的 dichotomy 了 。 所 以 ,我 们 就 把 4 称 为 2D perceptrons 的 
break point (5、6、7 等 都 是 break point) 。 令 有 k 个 点 ， 如 果 k 大 于 等 于 break point 
时 ， 它 的 成 长 函数 一 定 小 于 2 的 k 次 方 。 


根据 break point 的 定义 ， 我 们 知道 满足 mp (k) A 2* 的 k 的 最 小 值 就 是 break point, 
对 于 我 们 之 前 介绍 的 四 种 成 长 函数 ， 他 们 的 break point 分 别 是 : 





* positive rays: ma (N) = N+ 1 = O(N) 
break point at 2 


* positive intervals: my(N) = 3N? + 5N +1 = O(N?) 
break point at 3 

* convex sets: m,(N) = 2% 
no break point 

e 2D perceptrons: m,(N) < 2" in some cases 
break point at 4 


通过 观察 ， 我 们 猜测 成 长 函数 可 能 与 break point 存 在 某 种 关系 : 对 于 convex sets, i 
break point， 它 的 成 长 函数 是 2 的 N 次 方 ; 对 于 positive rays, break point k=2， 它 
的 成 长 函数 是 O(N); 对 于 positive intervals, break point k=3， 它 的 成 长 函数 是 
O(N? )。 则 根据 这 种 推论 ， 我 们 猜测 2D perceptrons， 它 的 成 长 函数 

mg(N) = O(N* 1), 。 如 果 成 立 ， 那 么 就 可 以 用 mm 万 代 蔡 M， 就 满足 了 机 器 能 够 学 
习 的 条 件 。 关 于 上 述 猜测 的 证 明 ， 我 们 下 节 课 再 详细 介绍 。 


五 、 总 结 


本 节 课 ， 我 们 更 深入 地 探讨 了 机 器 学 习 的 可 行 性 我 们 把 机 器 学 习 拆 分 为 两 个 核心 问 
题 : Ein(g) ~ Boui (9) 和 Bin (9) ~ 0。 对 于 第 一 个 问题 ， 我 们 探讨 了 M 个 
hypothesis 到 底 可 以 划分 为 多 少 种 ， 也 就 是 成 长 函数 mm 瑟 。 并 引入 了 break point 的 概 
念 ， 给 出 了 break point 的 计算 方法 , 汪 节 课 ， 我 们 将 详细 论证 对 于 2D perceptrons, 
它 的 成 长 函数 与 break point 是 否 存 在 多 项 式 的 关系 ， 如 果 是 这 样 ， 那 么 机 器 学 习 就 是 
可 行 的 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 。 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 6 -- Theory of 


Generalization 


VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 一 节 课 ， 我 们 主要 探讨 了 当 M 的 数值 大 小 对 机 器 学 习 的 影响 。 如 果 M 很 大 ， 那 么 就 

不 能 保证 机 器 学 习 有 很 好 的 泛 化 能 力 ， 所 以 问题 转换 为 验证 M 有 限 ， 即 最 好 是 按照 多 

项 式 成 长 。 然 后 通过 引入 了 成 长 函数 mg (N ) 和 dichotomy 以 及 break point 的 概念 ， 提 
出 2D perceptronshI R KAM g (UIN ) 是 多 项 式 级 别 的 猜想 。 这 就 是 本 节 课 将 要 深入 

探讨 和 证 明 的 内 容 。 


一 、Restriction of Break Point 


我 们 先 回顾 一 下 上 节 课 的 内 容 ， 四 种 成 长 函数 与 break point 的 关系 : 


* positive rays: my (N) = N+1 
ox  m4(2)— 3 < 22: break point at 2 
* positive intervals: my(N) = 3N* + N - 1 
oxo M My(3) = 7 < 23: break point at 3 
e convex sets: mj, (N) = 2% 
o i : mx(N) = 2" always: no break point 
e 2D perceptrons: m;,(N) < 2" in some cases 


x : x  my(4) = 14 < 2^: break point at 4 


下 面 引 入 一 个 例子 ， 如 果 k=2， 那 么 当 N 取 不 同 值 的 时 候 ， 计 算 其 成 长 函数 mp (NN ) 是 
多 少 。 很 明显 ， 当 N=1 时 ，mpg (入 )=2,; 当 N=2 时 ， 由 break point 为 2 可 知 ， 任 意 两 
点 都 不 能 被 shattered (shatter 的 意思 是 对 N 个 点 ， 能 够 分 解 为 2 种 dichotomies) ; 
my (NN ) 最 大 值 只 能 是 3;， 当 N=3 时 ， 和 简单 绘 图 分 析 可 得 其 mp (IN) = 4， 即 最 多 只 
4 种 dichotomies。 





what ‘must be true’ when minimum break point k = 2 


e N=1: every m4(N) = 2 by definition 

e N—2: every mx(N) < 4 by definition 
(so maximum possible = 3) 

e N= 3: maximum possible = 4 « 2° 


一 break point k restricts maximum possible m,,(N) a lot for N > k 


所 以 ， 我 们 发 现 当 N>k 时 ，break point 限 制 了 mp (N ) 值 的 大 小 ， 也 就 是 说 影响 成 长 
函数 mr(V ) 的 因素 主要 有 两 个 : 

。 抽样 数据 集 N 

。 break point k (这 个 变量 确定 了 假设 的 类 型 ) 
那么 ， 如 果 给 定 N 和 k， 能 够 证 明 其 mp (UN ) 的 最 大 值 的 上 界 是 多 项 式 的 ， 则 根据 霍 夫 


J 不等式， 就 能 用 mp (UN ) 代 替 M， 得 到 机 器 学 习 是 可 行 的 。 所 以 ,证 明 mg (N) 
上 界 是 poly(N)， 是 我 们 的 目标 。 


idea: max(N) 
maximum possible mx(N) given k 
poly(N) 


I^ IA 


—,. Bounding Function: Basic Cases 


现在 ， 我 们 引入 一 个 新 的 函数 : bounding function, B(N,K), Bound Function 指 的 是 
当 break point 为 k 的 时 候 ， 成 长 函数 mr(JV) 可 能 的 最 大 值 。 也 就 是 说 B(N,k) 是 
mr(V) 的 上 界 ， 对 应 rm 六 (V) 最 多 有 多 少 种 dichotomy。 那 么 ， 我 们 新 的 目标 就 是 证 
BA: 


B(N,k) < poly(N) 


这 里 值得 一 提 的 是 ，B(N,k) 的 引入 不 考虑 是 1D postive intrervals 问 题 还 是 2D 
perceptrons 问 题 ， 而 只 关心 成 长 函数 的 上 界 是 多 少 ， 从 而 简化 了 问题 的 复杂 度 。 





bounding function B(N, k): 
maximum possible m;,(N) when break point = k 


e combinatorial quantity: 
maximum number of length-N vectors with (o, x) 
while ‘no shatter’ any length-k subvectors 


e irrelevant of the details of H 
e.g. B(N,3) bounds both 


* positive intervals (k — 3) 
* 1D perceptrons (k — 3) 


求解 B(N,k) 的 过 程 十 分 巧妙 : 
。 当 k=1 时 ，B(N,1) 恒 为 1。 
。 当 N < k 时 ， 根 据 break point 的 定义 ， 很 容易 得 到 B(NV, k) = 2V。 


。 当 N = k 时 ， 此 时 N 是 第 一 次 出 现 不 能 被 shatter 的 值 ， 所 以 最 多 只 能 有 2 一 1 个 
dichotomies, MB(N,k) = 2% — 1, 


k 

ANE 2 0.4 5 6 .. 
1 Ea 2 2 2 . 

2 |1 44 4 4 4 

3- [314 T" a4. 8 

N 4 ÝA 15 16 16 

5BSALY 31 32 

6 NI 1 63 


到 此 ，bounding function 的 表格 已 经 填 了 一 半 了 ， 对 于 最 常见 的 N>k 的 情况 比较 复 
杂 ， 推 导 过 程 下 一 小 节 再 详细 介绍 。 

=, Bounding Function: Inductive Cases 

N > k 的 情况 较为 复杂 ， 下 面 给 出 推导 过 程 : 

以 B(4,3) 为 例 ， 首 先 想 着 能 否 构 建 B(4,3) 与 B(3,x) 之 间 的 关系 。 


首先 ， 把 B(4,3) 所 有 情况 写 下 来 ， 共 有 11 组 。 也 就 是 说 再 加 一 种 dichotomy， 任 意 三 点 
都 能 被 shattered，11 是 极限 。 











9 
D D OC X X X OO Oo X OQ 
oO NW. X 0 0 x. 0 5 X o 90 
~ oO X 0X 0-0 X 9 0 0 
XX 5x O XX 6.6 oe dls 


- 


对 这 11 种 dichotomy 分 组 ， 目 前 分 成 两 组 ， 分 别 是 orange 和 purple，orange 的 特点 
是 ，x1,x2 和 x3 是 一 致 的 ，x4 不 同 并 成 对 ， 例 如 1 和 5，2 和 8 等 ”purple 则 是 单一 的 ， 
x1,x2,x3 都 不 同 ， 如 6,7,9 三 组 。 








= + io x X a = 9o x 5 
= Pe Was ails helo ie BO 
Xx 0X0 X X00 0 
x x 0 x 0 x! Wo o olx 





orange: pair; purple: single | 


将 Orange 去 掉 x4 后 去 重 得 到 4 个 不 同 的 vector 并 成 为 ag， 相 应 的 purple 为 B。 那 么 
B(4,3) = 2a 十 6， 这 个 是 直接 转化 。 紧 接着 ， 由 定义 ，B(4,3) 是 不 能 允许 任意 三 点 
shatter 的 ， 所 以 由 a 和 6 构成 的 所 有 三 点 组 合 也 不 能 shatter (alpha 经 过 去 重 ) ， 即 
a+ B < B(3,3). 








* a + 8: dichotomies on (X1, X2, X3) 
e B(4,3) ‘no shatter’ any 3 inputs 
=> o + 8 ‘no shatter’ any 3 


a+ B € B(3,3) | 


另 一 方面 ， 由 于 a 中 x4 是 成 对 存在 的 ， 且 am 是 不 能 被 任意 三 点 shatter 的 ， 则 能 推导 出 a 
是 不 能 被 任意 两 点 shatter 的 。 这 是 因为 ， 如 果 a 是 不 能 被 任意 两 点 shatter， 而 x4 又 是 
成 对 存在 的 ， 那 么 x1、x2、x3、x4 组 成 的 a 必 然 能 被 三 个 点 shatter。 这 就 违背 了 条 件 
的 设 定 。 这 个 地 方 的 推导 非常 巧妙 ， 也 解释 了 为 什么 会 这 样 分 组 。 此 处 得 到 的 结论 是 
a < B(3, 2) 








* o: dichotomies on (X. X2, X3) 
with x4 paired 

e B(4,3) ‘no shatter’ any 3 inputs 

=> o ‘no shatter’ any 2 





o € B(3,2) ] 


由 此 得 出 B(4,3) 与 B(3,x) 的 关系 为 : 





B(4,3) 
a+, 


204+ 8 
B(3,3) 
B(3, 2) 
B(3,3) + B(3, 2) 


o 


=> B(4.3) 


IA IA IA Il 


最 后 ， 推 导出 一 般 公 式 为 : 


B(N,k) 
o T8 


2a 4- B 

B(N — 1. Kk) 

B(N —1.k — 1) 

B(N — 1,k) + BN— 1. k — 1) 


a 


=> B(N, k) 


IA IA IA I 


根据 推导 公式 ， 下 表 给 出 B(N,K) 值 
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根据 递 推 公式 ， 推 导出 B(N,K) 满 足下 列 不 等 式 : 


k—1 


B(Nks M (7) 


i=0 
— —Á 
highest term N*-' 
上 述 不 等 式 的 右边 是 最 高 阶 为 k-1 的 N 多 项 式 ， 也 就 是 说 成 长 函数 my (N) ER 
B(N,K) 的 上 界 满足 多 项 式 分 布 poly(N)， 这 就 是 我 们 想 要 得 到 的 结果 。 


得 到 了 mp (六) 的 上 界 B(N,K) 的 上 界 满足 多 项 式 分 布 poly(N) 后 ， 我 们 回 过 头 来 看 看 之 
前 介绍 的 几 种 类 型 它们 的 mg (N ) 与 break point 的 关系 : 





* positive rays: ma(N) =N+1< N+ 1 
ox  ma(2) = 3 < 2*: break point at 2 


* positive intervals: my(N) = 3N? + 3N+ 1< 2N? + 3N+1 
oxo  mg(3) =7 < 2°: break point at 3 
e 2D perceptrons: my (N)—? < £N? + 2N+1 


o 


x x  mqg(4)- 14 < 2*: break point at 4 


o 


我 们 得 到 的 结论 是 ， 对 于 2D perceptrons, break pointZjk-4, mg (IN ) 的 上 界 是 
NEI, 推广 一 下 ， 也 就 是 说 ， 如 果 能 找到 一 个 模型 的 break point， 且 是 有 限 大 的 ， 
那么 就 能 推断 出 其 成 长 函数 mp (UN) SR. 

四 、A Pictorial Proof 


我 们 已 经 知道 了 成 长 函数 的 上 界 是 poly(N) 的 ， 下 一 步 ” 如 果 能 将 my (入 ) 代 蔡 M， 代 
入 到 Hoffding 不 等 式 中 ， 就 能 得 到 Bj B E;n 的 结论 : 

want: 

P|ah € Hst. |En(h)— Eoa(h)| > 1 «2 mx( N)-exp (-2 en) 


实际 上 并 不 是 简单 的 替换 就 可 以 了 ， 正 确 的 表达 式 为 : 


actually, when N large enough, 


P|ah EH st. |Ein(h) — Eour(h)| > e| < 2.2m„(2N) - exp (-25¢N) 


该 推导 的 证 明 比 较 复杂 ， 我 们 可 以 简单 概括 为 三 个 步骤 来 证 明 : 





Step 1: Replace Es by E;, 
5P [3h € A st. |Ein(h) — Eour(h)| > e] 
< Plahenst |En(h) - (9) > 5] 











* &,(h) finitely many, Eout(h) infinitely many 
—Teplace the evil Eout first 

e how? sample verification set D’ of size N 
to calculate E. 

e BAD hof En — Eout 

P9999 BAD hof Ein 一 局 


Probability distribution 







evil Eout removed by ~>, 
verification with = cae 4 






Step 2: Decompose H by Kind 
BAD < 2P|ane HSK lE - E! (h)| > 5] 


- ampia hst |Ein(h) — E(5)| > 5] 





© En with D, E, IS D' 


—now mx comes to play i 
e how? infinite H becomes I pde 

I... ey E 33. - ., XN)| 

kinds 





e union bound on mn (2N) Kinds | ia) rotin maniy PI 








Step 3: Use Hoeffding without Replacement 
2my(2N)P fixed h s.t. |En(h) — Ein(h)| > $] 


2m (2N) - 2 exp (-2 (<) N) 


BAD 


I^ 





e consider bin of 2N examples, 
choose N for Ein, leave others for En 


€ 后 n 十 后 € 

|En 一 Enl > 5 € En- 5 5| > § 
* So? just ‘smaller bin’, ‘smaller e, and 
Hoeffding without replacement 


sample for Ein 





small bin 


use Hoeffding after zooming to fixed h | 


这 部 分 内 容 ， 我 也 只 能 听 个 大 概 内 容 ， 对 具体 的 证 明 过 程 有 兴趣 的 童鞋 可 以 自行 研究 
一 下 ， 研 究 的 结果 记得 告诉 一 下 我 哦 。 


最 终 ， 我 们 通过 引入 成 长 函数 mp， 得 到 了 一 个 新 的 不 等 式 ， 称 为 Vapnik- 
Chervonenkis(VC) bound: 
Vapnik-Chervonenkis (VC) bound: 
P|ah € 4 st. |Ein(h) — Eou(h)| > e] 
< 4m„(2N)exp (-32n) 
对 于 2D perceptrons， 它 的 break point 是 4， 那 么 成 长 函数 mp (IN) = O(N). FR 


以 ,我 们 可 以 说 2D perceptrons 是 可 以 进行 机 器 学 习 的 ， 只 要 找到 hypothesis 能 让 
E;n ~ 0, 就 能 AEB in xX Ebout. 


五 、 总 结 


本 节 课 我 们 主要 介绍 了 只 要 存在 break point， 那 么 其 成 长 函数 rz (UN ) 就 满足 
poly(N)。 推 导 过 程 是 先 引 入 mp (六) 的 上 界 B(N,k)，B(N,k) 的 上 界 是 N 的 k-1 阶 多 项 


= 
eno 
E] 





式 ， 从 而 得 到 mr (JV) 的 上 界 就 是 N 的 k-1 阶 多 项 式 。 然 后 ， 我 们 通过 简单 的 三 步 证 
B, 将 mp (入) 代入 了 Hoffding 不 等 式 中 ， 推 导出 了 Vapnik-Chervonenkis(VC) 
bound， 最 终 证 明了 只 要 break point 存 在 ， 那 么 机 器 学 习 就 是 可 行 的 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 。 





林 轩 田 《 机 器 学 习 基石 》 课 程 笔记 7 -- The VC 


Dimension 


VES: 红色 石头 ARE: AI 有 道 (id: redstonewill) 


前 几 节 课 着 重 介 绍 了 机 器 能 够 学 习 的 条 件 并 做 了 详细 的 推导 和 解释 。 机 器 能 够 学 习 必 
须 满足 两 个 条 件 : 

。 假设 空间 H 的 Size M 是 有 限 的 ， 即 当 N 足 够 大 的 时 候 ， 那 么 对 于 假设 空间 中 任意 

一 个 假设 g， out Ri En 

。 利 用 算法 A 从 假设 空间 H 中 ， 挑 选 一 个 g, ERE; (g) & 0, WES ~ 0. 
这 两 个 条 件 ， 正 好 对 应 着 test 和 trian 两 个 过 程 。train 的 目的 是 使 损失 期 望 B;,(g) ~ 0 
; test 的 目的 是 使 将 算法 用 到 新 的 样本 时 的 损失 期 望 也 尽 可 能 小 ,， 即 Bvt ~ 0. 
正 因为 如 此 ， 上 次 课 引 入 了 break point， 并 推导 出 只 要 break point 存 在 ， 则 M 有 上 
m, ERE Bout a Eins 
本 次 笔记 主要 介绍 VC Dimension 的 概念 。 同 时 也 是 总 结 VC Dimension5 Ej, (g) ~ 0 
| Eou ^2 0, Model Complexity Penalty (下 面 会 讲 到 ) 的 关系 。 


一 、Definition of VC Dimension 


首先 ， 我 们 知道 如 果 一 个 假设 空间 H 有 break point k， 那 么 它 的 成 长 函数 是 有 界 的 ， 它 
的 上 界 称 为 Bound function。 根 据 数学 归纳 法 ，Bound function 也 是 有 界 的 ， 且 上 界 为 
N*-1。 从 下 面 的 表格 可 以 看 出 ，N(k 一 1) 比 B(N,k) 松 弛 很 多 。 





k—1 (N 
m(N) of break point k < Y. @ 


——<——— 
highest term ^/^—' 


Nk-1 
1 1 

8 16 
27 81 

16 64 256 
29 125 625 
36 216 1296 


k 
3 4 5 
1 
4 


DO 上 wm 一 

E^ cS pcs ors ec 

oar WM | 
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provably & loosely, for N > 2, k > 3, 


my(N) < 2! 
则 根据 上 一 节 课 的 推导 ，VC bound 就 可 以 转换 为 : 


For any g = A(D) € H and ‘statistical’ large D, foi > 3 


Pp||En(9) E Eout(9)| = 1 


< «WK [ah EH t. |En(h) — Eou(h)| > e] 
< 4m;,(2N) exp (-32N) 

if k exists 
< 


4(2N)*-! exp (-&&N) 


这 样 ， 不 等 式 只 与 k 和 N 相 关 了 ， 一 般 情 况 下 样本 N 足 够 大 ， 所 以 我 们 只 考虑 k 值 。 有 如 
下 结论 : 


。 若 假设 空间 H 有 break point k， 且 N 足 够 大 ， 则 根据 VC _ bound 理论， 算法 有 良好 
的 泛 化 能 力 
。 在 假设 空间 中 选择 一 个 和 矩 g， 使 玉 。， 交 0， 则 其 在 全 集 数 据 中 的 错误 率 会 较 低 





if (1) my(N) breaks at k (good H) 


(2) N large enough (good D) 
=> probably generalized ‘Eout + Ein’, and 
if (3) A picks a g with small Ej, (good A) 
=> probably learned! (:-) good luck) 


下 面 介绍 一 个 新 的 名 词 : VC Dimension, VC Dimension 就 是 某 假设 集 H 能 够 shatter 的 
最 多 inputs 的 个 数 ， 即 最 大 完全 正确 的 分 类 能 力 。 (注意 ， 只 要 存在 一 种 分 布 的 inputs 
能 够 正确 分 类 也 满足 ) 。 


shatter 的 英文 意思 是 “粉碎 "， 也 就 是 说 对 于 inputs 的 所 有 情况 都 能 列举 出 来 。 例 如 对 N 
个 输入 ， 如 果 能 够 将 2” 种 情况 都 列 出 来 ， 则 称 该 N 个 输入 能 够 被 假设 集 H shatter, 


根据 之 前 break point 的 定义 : 假设 集 不 能 被 shatter 任 何 分 布 类 型 的 inputs 的 最 少 个 
数 。 则 VC Dimension 等 于 break point 的 个 数 减 一 。 


VC dimension of H, denoted dVc (WH)'is 
largest N for which m;,(N) = 2% 


e the most inputs H that can shatter 
e Qc = ‘minimum K' - 1 


现在 ， 我 们 回顾 一 下 之 前 介绍 的 四 种 例子 ， 它 们 对 应 的 VC Dimension 是 多 少 : 





e positive rays: 
Ayc = 1 


e positive intervals: 


Qc — 2 
e convex sets: 
duc 一 OC 


e 2D perceptrons: 


my(N) = 3N? + 3N 4-1 


my(N) = 2" 


my(N) < N? for N > 2 


Ayc = 3 





Fad, f VSSk, BEA VC bound 的 问题 也 就 转换 为 与 wuc 和 N 相 关 了 。 同 时 ， 如 果 一 个 假 
设 集 H 的 dc 确定 了 ， 则 就 能 满足 机 器 能 够 学 习 的 第 一 个 条 件 上 owt © E, SAA, 
样本 数据 分 布 和 目标 浮 数 都 没有 关系 。 


finite dy 一 g ‘will’ generalizé (Euu(9) ~ Ein(g)) 


e regardless of learning algorithm A 
e regardless of input distribution P 
e regardless of target function f 


一 








training examples final hypothesis 
D: (Xi,J)…… , (XN; YN gaf 
hypothesis set 
H 


二 、VC Dimension of Perceptrons 


‘worst case’ guarantee 
on generalization 





回顾 一 下 我 们 之 前 介绍 的 2D 下 的 PLA 算 法 ， 已 知 Perceptrons 的 k=4， 即 wec = 3。 根 





Ein(g) © 0， 那 么 就 能 证 明 PLA 是 可 以 学 习 的 。 


linearly separable D with x, ~ P and yn = f(X;) 
J v 
PLA can converge — P[|E,(g) — Eour(g)| > e] € ... by duc = 3 


T large N large 


En(g) = 0 Eou(g) ~ Ein(g) 
— 47 
Eout(g) = 0 :-) 


这 是 在 2D 情 况 下 ， 那 如 果 是 多 维 的 Perceptron， 它 对 应 的 dj 又 等 于 多 少 呢 ? 
已 知 在 1D Perceptron, dwe = 2， 在 2D Perceptrons, dy, = 3， 那 么 我 们 有 如 下 假 
设 : dy — d 十 1， 其 中 d 为 维 数 。 
要 证 明 的 话 ， 只 需 分 两 步 证 明 : 
e dc 二 d+1 
e dye <d+1 


e 1D perceptron (pos/neg rays): dvc = 2 
e 2D perceptrons: dvc = 3 
* Ac > 3: g 


o 
e Ac € 3: X 。X 


e d-D perceptrons: dyco £d+1 


首先 证 明 第 一 个 不 等 式 : dy, 2 d 1. 


在 d 维 里 ， 我 们 只 要 找到 某 一 类 的 d+1 个 inputs 可 以 被 shatter 的 话 ， 那 么 必然 得 到 
dy, > d 十 1。 所 以 ,我 们 有 意 构 造 一 个 d 维 的 矩阵 头 能 够 被 shatter 就 行 。 关 是 d 维 
的 ， 有 d+1 个 inputs， 每 个 inputs 加 上 第 零 个 维度 的 带 数 项 1， 得 到 从 的 和 矩阵 : 





一 xj 一 EE: CAT. 

uu m 1 0 . 0 

x= = 一 1 0 
: 0 

=n 0... 0 1 


矩阵 中 ， 每 一 行 代 表 一 个 inputs， 每 个 inputs 是 d+1 维 的 ， 共 有 d+1 个 inputs。 这 里 构造 
的 怀 很 明显 是 可 逆 的 。shatter 的 本 质 是 假设 空间 H 对 入 的 所 有 情况 的 判断 都 是 对 的 ， 
即 总 能 找到 权重 W,， HEX *W = y，W = Xl * yy。 由 于 这 里 我 们 构造 的 和 矩阵 于 
的 逆 和 矩阵 存在 ， 那 么 d 维 的 所 有 inputs 都 能 被 shatter， 也 就 证 明了 第 一 个 不 等 式 。 


invertible 





for any y = : , find. w such that 
Yo+1 


X inyertible! 


sign(Xw)=y <= (Xw)=y w=X-'y 


然后 证 明 第 二 个 不 等 式 : dy X d 1. 


在 d 维 里 ， 如 果 对 于 任何 的 d+2 个 inputs， 一 定 不 能 被 shatter， 则 不 等 式 成 了 。 我 们 构 
造 一 个 任意 的 矩 孟 多， 其 包含 dq+2 个 inputs， 该 矩阵 有 d+1 列 ，d+2 行 。 这 d+2 个 向 量 的 
某 一 列 一 定 可 以 被 男 外 d+1 个 向 量 线 性 表示 ， 例 如 对 于 向 量 关 4g 2， 可 表示 为 : 


Xqig = Q1 * X1 + a9 * X2 +--+: d ag * Xa 
Hh, 假设 ai 0, à2,***,Qd < 0. 


那么 如 果 入 1 是 正 类 ， 及 2? … ,及 d 均 为 负 类 ， 则 存在 做 ， 得 到 如 下 表达 式 : 
Xqi2* W =a, * X1 x Wag * Xo x Wt---tag * Xa * W> 0 


因为 其 中 蓝 色 项 大 于 0， 代 表 正 类 ; 红色 项 小 于 0， 代 表 负 类 。 所 有 对 于 这 种 情况 ， 





X4 十 2 一 定 是 正 类 ， 无 法 得 到 负 类 的 情况 。 也 就 是 说 ，d+2 个 inputs 无 法 被 shatter。 
证 明 完 毕 ! 


d-D General Case 


— yxy’ — 
d more rows than columns: 
一 xy 一 
X= : linear dependence (some ai non-zero) 
m m Xd+2 = 41X14 + &2X2 +... + àg41Xgq41 
= a 





e can you generate (sign(a1), Sign(a2),..., sign(ag.1), x)? if so, 
what w? 


E T ie = n 
W Xo+2 = alW Xi 十 azW za Xd+1 
o x x 


> O(contradition!) SM 


综 上 证 明 可 得 duc = d 十 1. 





三 、Physical Intuition VC Dimension 








Degrees of Freedom 





e hypothesis parameters w = (Wo, W1, -+> , Wg): 

creates degrees of freedom 
e hypothesis quantity M = |H|: 

‘analog’ degrees of freedom 
e hypothesis ‘power’ dyc = d + 1: wy, 

effective ‘binary’ degrees of freedom 4 ^^ 

A/S 07 
dyc(?1): powerfulness"of H | 
上 节 公 式 中 WW 又 名 features， 即 自由 度 。 自 由 度 是 可 以 任意 调节 的 ， 如 同上 图 中 的 旋 


钮 一 样 ， 可 以 调节 。VC Dimension 代 表 了 假设 空间 的 分 类 能 力 ， 即 反映 了 H 的 自由 
度 ， 产 生 dichotomy 的 数量 ， 也 就 等 于 features 的 个 数 ， 但 也 不 是 绝对 的 。 


practical rule of thumb: 


ovc £z #free parameters (but not always) 


例如 ， 对 2D Perceptrons, RIEDX, duw = 3, WW = (wo, wi, ww? ， 也 就 是 说 
只 要 3 个 features 就 可 以 进行 学 习 ， 自 由 度 为 3。 


介绍 到 这 ， 我 们 发 现 M 与 dc 是 成 正比 的 ， 从 而 得 到 如 下 结论 : 





M and ovc 
copied from Lecture 5 :-) 
Q can we make sure that Eout(g) is close enough to Ein(9)? 
can we make Ein(g) small enough? 




















Q No!, 
P[BAD] < 2- M - exp...) 


® Yes!, many choices 


© Yes!, 
P[BAD] < 2 - M - exp(...) 
© Nol, too few choices 












© Yes!, P[BAD] < © No!, P[BAD] < 
4 . (2N)%¢ - exp(...) 4 - (2N)%¢ - exp(. ..) 
© No!, too limited power © Yes! lots of power 


Pu. Interpreting VC Dimension 


下 面 ， 我 们 将 更 深入 地 探讨 VC Dimension 的 意义 。 首 先 ， 把 VC Bound 重 新 写 到 这 
里 : 


For any g = A(D) e Hand ‘statistical’ large D, fo 一 一 -ovc > 2 


Pp||Ein(g) — Eolo) ><] < 4(2N)* exp (—§e?N) 
,一 一 Se eee 
BAD 


根据 之 前 的 泛 化 不 等 式 ， 如 果 |Ein, 一 Bowt| e， 即 出 现 bad 坏 的 情况 的 概率 最 大 不 
超过 6。 那 么 反 过 来 ， 对 于 good 好 的 情况 发 生 的 概率 最 小 为 1 一 $， 则 对 上 述 不 等 式 进 
行 重新 推导 : 





..., With probability > 1 — 5, GOOD: |Ein(g) — Eout(g)| < € 





set ô = 4(2N)% exp (-ieN) 
we = p(n) 
n (Sen) = gen 
§ In (£——) = € 


人 表现 了 假设 空间 H 的 泛 化 能 力 ，e 越 小 ， 泛 化 能 力 越 大 。 


For any g = A(D) € H and ‘statistical’ large D, foley a do > 2 


Pp||Ein(g) - Eou(9)| ><] < [WER exp (— 52) 
NE es 
BAD : 








..., With probability > 1 — 6, GOOD! 


dyc 
gen. error |Ein(g) — Eou(9)] < 8 In (一 一 ) 
好 havc dyc 
g E Eoun(g) < Enl) + 4/ Sin ($257) 





V... :penalty for model complexity | 
一 一 


Q(N, 21,6) 





Bit, GSES HizwikReL NOR, AARIIEBRORLA (Eou RIBSEBJERCA 
值 ) , BD: 





with a high probability, 





上 述 不 等 式 的 右边 第 二 项 称 为 模型 复杂 度 ， 其 模型 复杂 度 与 样本 数量 N、 假 设 空间 H( 
di). BX. Eotn BE HEIRE. NAH Eu, model complexity, Ein Mdv 
变化 的 关系 : 


out-of-sample error € Ac T: Ein T but Q T 
e dvc 1: Q | but Ein t 
e best avin the middle 


FE 







model complexity 





Error 


in-sample error 





dye. VC dimension, dve 
powerful H not always good! 


通过 该 图 可 以 得 出 如 下 结论 : 
»x dvc 越 大 ， Ejj v, QHA (复杂 ) o 
. auc 越 小 ， EX, 0 越 小 (简单 ) o 
bi 随 着 dc 增 大 ， out 会 先 减 小 再 增 大 。 


所 以 ,为 了 得 到 最 小 的 Bow， 不 能 一 味 地 增 大 dc 以 减 小 Bin,， 因 为 Bin, 太 小 的 时 候 ，, 
模型 复杂 度 会 增加 ， 造 成 Bowt 变 大 。 也 就 是 说 ， 选 择 合适 的 dv。， 选 择 的 features 个 数 


面 介绍 一 个 概念 : 样本 复杂 度 (Sample Complexity) 。 如 果 选 定 quc ， 样 本 数据 D 
少 合适 呢 ? 通过 下 面 一 个 例子 可 以 帮助 我 们 理解 : 





given specs e = 0.1, 6 = 0.1, dy; = 3, want 4(2N)%e exp (— $N) < ô 


N bound 
100 2.82 x 10’ 


1,000 9.17 x 10° sample complexity: 
10,000 1.19 x 108 need N ~ 10, 000d\¢ in theory 
100,000 1.65 x 10-9? 

29,300 9.99 x 107? 
通过 计算 得 到 N=29300， 刚 好 满足 $ — 0.1 的 条 件 。N 大 约 是 quc 的 10000 倍 。 这 个 数 
值 太 大 了 ， 实 际 中 往往 不 需要 这 么 多 的 样本 数量 ， 大 概 只 需要 dc 的 10 信 就 够 了 。NN 的 
理论 值 之 所 以 这 么 大 是 因为 VC Bound 过 于 宽松 了 ， 我 们 得 到 的 是 一 个 比 实际 大 得 多 
的 上 界 。 


Looseness of VC Bound 


Pp||Ein(9) — Eou(g)| ><] < .~4(2N)% exp (— 32) 


theory: N = 10,0004dyc; practice: N ~ 10d\c 





e Hoeffding for unknown Eo any distribution, any target 
e ma(N) instead of (X, .... Xw)| 'any' data 
e N^« instead of m; (N) ‘any’ H of same dvc 
e union bound on worst cases any choice made by .4 


一 but hardly better, and 'similarly loose for all models' 


值得 一 提 的 是 ，VC Bound 是 比较 宽松 的 ， 而 如 何 收 紧 它 却 不 是 那么 容易 ， 这 也 是 机 器 
学 习 的 一 大 难题 。 但 是 , 令 人 欣慰 的 一 点 是 ，VC Bound 基 本 上 对 所 有 模型 的 宽松 程度 
是 基本 一 致 的 ， 所 以 ， 不 同 模型 之 间 还 是 可 以 横向 比较 。 从 而 ，VC Bound 宽 松 对 机 器 
学 习 的 可 行 性 还 是 没有 太 大 影响 。 


Bh. 总 结 


本 节 课 主要 介绍 了 VC Dimension 的 概念 就 是 最 大 的 non-break point。 然 后 ， 我 们 得 到 

了 Perceptrons 在 d 维 度 下 的 VC Dimension 是 d+1。 接 着 ， 我 们 在 物理 意义 上 ,将 dc 

与 自由 度 联系 起 来 。 最 终 得 出 结论 dc 不 能 过 大 也 不 能 过 小 。 选 取 合 适 的 值 ， 才 能 让 E m 
out 足 够 小 ， 使 假设 空间 H 具 有 良好 的 泛 化 能 力 。 Per 





注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 8 -- Noise and Error 


VES: 红色 石头 公众 号 : AË (id: redstonewill) 


上 一 节 课 ,我 们 主要 介绍 了 VC Dimension 的 概念 。 如 果 Hypotheses set 的 VC 
Dimension 是 有 限 的 ， 且 有 足够 多 N 的 资料 ， 同 时 能 够 找到 一 个 hypothesis 使 它 的 
Ein ~ 0， 那 么 就 能 说 明 机 器 学 习 是 可 行 的 。 本 节 课 主 要 讲 了 数据 集 有 Noise 的 情况 
下 ， 是 人 否 能 够 进行 机 器 学 习 ， 并 且 介 绍 了 假设 空间 H 下 演算 法 A 的 Error 估 计 。 


一 、Noise and Probablistic target 


上 节 课 推导 VC Dimension 的 数据 集 是 在 没有 Noise 的 情况 下 局 本 节 课 讨论 如 果 数 据 集 
本 身 存 在 Noise， 那 VC Dimension 的 推导 是 否 还 成 立 呢 ? 
首先 ，Data Sets 的 Noise 一 般 有 三 种 情况 : 

。 由 于 人 为 因素 ， 正 类 被 误 分 为 负 类 ,或 者 负 类 被 误 分 为 正 类 ; 

。 同样 特征 的 样本 被 模型 分 为 不 同 的 类 ; 

。 样本 的 特征 被 错误 记录 和 使 用 。 





briefly introduced noise before pocket algorithm 








age | Bys | 
NTD 1,000,000 noise in y: good customer, 


mislabeled as bad? 


eoo I 

credit? (no(—1), yes(--1)] ierent labels : 

e noise in x: inaccurate 
customer information? 


noise in y: same customers, 





does VC bound work under noise? | 


之 前 的 数据 集 是 确定 的 ， 即 没有 Noise 的 ， 我 们 称 之 为 Deterministic。 现 在 有 Noise 
了 ， 也 就 是 说 在 基点 处 不 再 是 确定 分 布 ， 而 是 概率 分 布 了 ， 即 对 每 个 X，y) 出 现 的 概 
x«t P(y|a:). 


因为 Noise 的 存在 ， 比 如 在 x 点 ， 有 0.7 的 概率 y=1， 有 0.3 的 概率 y=0， 即 y 是 按照 
P(y|z) 分 布 的 。 数 学 上 可 以 证 明 如 果 数 据 集 按照 P(vy|zx ) 概 率 分 布 且 是 iid 的 ， 那 么 以 
前 证 明 机 器 可 以 学 习 的 方法 依然 奏效 ，VC Dimension 有 限 即 可 推断 Bin 和 和 Bout 是 近 
似 的 。 





Probabilistic Marbles 


imple 
one key of VC bound: marbles! B 





‘deterministic marbles 
* marble x ~ P(x) 
e deterministic color 


[f(x) # h(x)] 


‘orobabilistic’ (noisy) marbles 
e marble x ~ P(x) 


e probabilistic color 
[y # h(x)] with y ~ P(y|x) 











same nature: can estimate P[orange] if ^ 


VC holds for x «4 P(x), y "^. P(y|x) 
Se 






(xy ^ P(X;y) 


P(glz) 称 之 为 目标 分 布 (Target Distribution) “。 它 实际 上 告诉 我 们 最 好 的 选择 是 什 
么 ， 同 时 伴随 着 多 少 noise。 其 实 ， 没 有 rioise 的 数据 仍然 可 以 看 成 特殊 "的 P(y|z) 概 
率 分 布 ， 即 概率 仅 是 1 和 0. 对 于 以 前 确定 的 数据 集 : 


P(y|z).— 1, for y = f(z) 


P(y|x) = 0, for y # f(x) 





Target Distribution P(y|x) 


characterizes behavior of ‘mini-target’ on one x 


e can be viewed as ‘ideal mini-target’ + noise, e.g. 
e P(o|x) = 0.7, P(x|x) = 0.3 
e ideal mini-target f(x) = o 
e ‘flipping’ noise level = 0.3 
e deterministic target f: special case of target distribution 
e P(y|x) = 1 for y = f(x) 
e P(y|x) = 0 for y # f(x) 


goal of learning: 


predict ideal mini-target (w.r.t. P(y|x)) 
on often-seen inputs (w.r.t. P(x)) 





在 引入 noise 的 情况 下 ， 新 的 学 习 流 程 图 如 下 所 示 : 


rr eee y 
unknown target X me 0-0 "e 
distribution P(y|x) "s 
containing f(x) + noise on a ` 
+ ^ ^ 
' Pod M ` 
' X1. X2 Xue ~.. X . 
Yiy2 YN ese” 0 0 Be : 
' ~ 















learning 


training examples algorithm 
A 


D: (X4; y1); +- + (XN; YN 


hypothesis set 
H 


VC still works, pocket algorithm explained :-) 


—, ERROR Measure 


final hypothesis 
gaf 






Mar FYRE ISAE REE SEARA, RiR Eou 进行 
误差 的 估计 ， 那 一 般 的 错误 测量 有 哪些 形式 呢 ? 


我 们 介绍 的 矩 g 对 错误 的 衡量 有 三 个 特性 : 





。 out-of-sample: 样本 外 的 未 知 数 据 
。 pointwise: 对 每 个 数据 点 x 进 行 测试 


e classification: 看 prediction 与 target 是 否 一 致 ，classification error 通 常 称 为 
0/1 error 


e how well? previously, considered out-of-sample measure 
Eout(9) "s S 1900 * f(x)] 


e more generally, error measure E(g, f) 

e naturally considered 
e out-of-sample: averaged over unknown x 
e pointwise: evaluated on one x 
e classification: [prediction z target] 


PointWise error 实 际 上 就 是 对 数据 集 的 每 个 点 计算 错误 并 计算 平均 ，Ein 和 Eout 的 
pointwise error 的 表达 式 为 : 





out-of-sample 






N 
En(9) = $ D engot) | Ealo) = E err(9(x). f(x) 
n=1 


pointwise error 是 机 器 学 习 中 最 常用 也 是 最 简单 的 一 种 错误 衡量 方式 ， 未 来 课程 中 ， 我 
们 主要 考虑 这 种 方式 。pointwise error 一 般 可 以 分 成 两 类 : 0/1 error 和 squared error, 
0/1 error 通 常用 在 分 类 (classification) 问题 上 ， 而 squared error 通 常用 在 回归 
(regression) 问题 上 。 







Squared error 






en(y. y) = [Y £ yl 
e correct or incorrect? 
e often for classification 





err( y. y) = (y - y* 
e how far is y from y? 
e often for regression 


Ideal Mini-Target 由 P(y|x) 和 err 共 同 决定 ，0/1 error 和 squared error 的 Ideal Mini- 





Target 计 算 方 法 不 一 样 。 例 如 下 面 这 个 例子 ， 分 别 用 0/1 error 和 squared error 来 估计 最 
理想 的 mini-target 是 多 少 。0/1 error 中 的 mini-target 是 取 P(y|x) 最 大 的 那个 类 ,， 而 
squared error 中 的 mini-target 是 取 所 有 类 的 加 权 平 方 和 |。 


Ideal Mini- Target 
interplay between noise and error: 


P(y|x) and err define ideal mini-target f(x) 


P(y= 1|x) = 0.2, P(y = 2\x) = 0,7, Ply = 31x) = 0.1 


en(j. y) = [y 7 y] en(y, y) = (y - y 
1 avg. err 0.8 1 avg. err 1.1 
~ ] 2 avg. err 0.3(*) 2°“ avg. err 0.3 
fous avg. err 0.9 3. avg. err 1.5 
1.9 avg. err 1.0(really? :-)) 1.9 avg. err 0.29(x) 
f(x) = argmax P(y|x) f(x) = Y y- P(yIx) 
y < 


yey 


有 了 错误 衡量 ， 就 会 知道 当前 的 和 矩 g 是 好 还 是 不 好 ， 并 会 让 演算 法 不 断 修 正 ， 得 到 更 好 
的 矩 g， 从 而 使 得 g 与 目标 国 数 更 接近 。 所 以 ， 引 入 error measure 后 ， 学 习 流程 图 如 下 
所 示 : 





= 
a 


unknown target 


distribution P(y|x) pyen aa 
containing f(x) + noise on: 、、 
+ ^ * 
* ^ ^ 
> ^ x ` 












learning 
algorithm 
A 













training examples 
D: (X1; y1); -+> . (XN, YN 


final hypothesis 
gaf 


error measure 
err 


=, Algorithmic Error Measure 


Error 有 两 种 : false accept 和 false reject, false accept 意 思 是 误 把 负 类 当成 正 类 ， 
false reject 是 误 把 正 类 当成 负 类 。 根据 不 同 的 机 器 学 习 问 题 ，false accept 和 false 
reject 应 该 有 不 同 的 权重 ， 这 根 实 际 情况 是 符合 的 关 比 如 是 超市 优惠 ， 那 么 false reject 
应 该 设 的 大 一 些 ; 如 果 是 安保 系统 ， 那 么 false accept 应 该 设 的 大 一 些 。 


two types of error: false accept.and false reject 





+1 no error false reject 
-1 | false accept’ no error 


机 器 学 习 演 算法 A 的 cost function error 估 计 有 多 种 方法 ， 真 实 的 err 一 般 难以 计算 ， 常 
用 的 方法 可 以 采用 plausible 或 者 friendly， 根 据 具体 情况 而 定 。 


Algorithmic Error Measures err 


e true: just err 
e plausible: 

e 0/1: minimum ‘flipping noise 一 NP-hard to optimize, remember? :-) 

e squared: minimum Gaussian noise 
e friendly: easy to optimize for A 

e closed-form solution 

e convex objective function 





引入 algorithm error measure 之后， 学习 流程 图 如 下 : 


ex ee ee eee ee y 
unknown target > nie 
distribution P(y|x) pen A 
containing f(x) + noise wi 
+ ^ ^ 
+ ^ ^ 
` ` x ` 


“an 
=- 
^ -- 
- 




























training examples 1 final hypothesis 
D: Qs. 1). , (XN; YN gre get 
err 







error measure 
err 


hypothesis set 
H 


P, Weighted Classification 


实际 上 ， 机 器 学 习 的 Cost Function 即 来 自 于 这 些 error， 也 就 是 算法 里 面 的 迭代 的 目标 
国 数 ， 通 过 优化 使 得 Error (Ein) 不 断 变 小 。 

cost function, false accept 和 false reject 赋 予 不 同 的 权重 ， 在 演算 法 中 体现 。 对 不 
同 权重 的 错误 惩罚 ， 可 以 选用 virtual copying 的 方法 。 





Systematic Route: 


original problem 


(X1 , Ti) 

(Xo, —1) 

D: (Xa, —1) 
(Xw-1, +1) 

(xy, +1) 


Connect EW and E?" 


equivalent problem 






(X1, 4-1) 

(Xo, —1), (X2, —1), TT (Xo, —1) 

(Xs, = (Xs, 三 由 ae (Xs, =i) 
(x55 f) 

(xn, +1) 





after copying —1 examples 1000 times, 
E" for LHS = E?” for RHS! | 











Weighted Pocket Algorithm 





using ‘virtual copying’, weighted pocket algorithm include: 


e weighted PLA: 


randomly check —1 example mistakes with 1000 times more 


probability 


e weighted pocket replacement: 
if wi+1 reaches smaller E? than W, replace W by W;.. 


can be applied to many other algorithms! 


systematic route (called ‘reduction’): | 








本 节 课 主要 讲 了 在 有 Noise 的 情况 下 ， 即 数据 集 按照 P(y|z ) 概 率 分 布 ， 那 么 VC 
Dimension 仍 然 成 立 ， 机 器 学 习 算 法 推导 仍然 有 效 。 机 器 学 习 cost function 常 用 的 Error 
有 0/1 error 和 squared error 两 类 。 实 际 问题 中 ， 对 false accepthilfalse reject 应 该 选择 
不 同 的 权重 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基石 》 课 程 。 
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Regression 


作者 : 红色 石头 “公众 号 : Al 有 道 (id: redstonewill) 


上 节 课 ， 我 们 主要 介绍 了 在 有 noise 的 情况 下 ，VC Bound 理 论 仍然 是 成 立 的 。 同 时 ， 
介绍 了 不 同 的 error measure 方 法 。 本 节 课 介绍 机 器 学 习 最 常见 的 一 种 算法 : Linear 
Regression. 


一 、 线 性 回归 问题 


在 之 前 的 Linear Classification 课 程 中 ， 讲 了 信用 卡 发 放 的 例子 ， 利 用 机 器 学 习 来 决定 
是 否 给 用 户 发 放 信用 卡 。 本 节 课 仍然 引入 信用 卡 的 例子 , “来 解决 给 用 户 发 放 信用 卡 额 
度 的 问题 ， 这 就 是 一 个 线性 回归 (Linear Regression) 问题 。 


Linear Regression Hypothesis 


| age | 23years | 
NTD 1,000,000 
current debt 200,000 





e For X = (Xo, X1, Xo, --- , Xa) ‘features of customer’, 
approximate the desired credit limit with a weighted sum: 
d 
ya > WiXi 
i=0 


e linear regression hypothesis: h(x) = w7x 


h(x): like perceptron, but without the sign | 





令 用 户 特 征集 为 q 维 的 入 ， 加 上 常数 项 ， 维 度 为 qd 十 1， 与 权重 w 的 线性 组 合 即 为 
Hypothesis, 记 为 h(x)。 线 性 回归 的 预测 函数 取 值 在 整个 实数 空间 ， 这 跟 线性 分 类 不 





h(x) = w? X 





linear regression: 
find lines/hyperplanes with small residuals | 


根据 上 图 ， 在 一 维 或 者 多 维 空间 里 ， 线 性 回归 的 目标 是 找到 一 条 直线 (对 应 一 维 ) 、 
一 个 平面 (对 应 二 维 ) 或 者 更 高 维 的 超 平面 ， 使 样本 集中 的 点 更 接近 它 ， 也 就 是 残留 
误差 Residuals 最 小 化 。 

一 般 最 常用 的 错误 测量 方式 是 基于 最 小 二 乘法 ， 其 目标 是 计算 误差 的 最 小 平方 和 对 应 
的 权重 w， 即 上 节 课 介绍 的 squared error: 


popular/historical error measure: 
squared error err(V, y) = (y — yy. 


out-of-sample 





N 
E«(hw) = GX (An) yn)? | Eu(w) E (wx — y) 


n1 
wx; 


这 里 提 一 点 ， 最 小 二 乘法 可 以 解决 线性 问题 和 非 线性 问题 。 绪 性 最 小 二 乘法 的 解 是 
closed-form, BPX = (AT A) 1 AT 9， 而 非 线 性 最 小 二 乘法 没有 closed-form， 通 常 puse 





用 进 代 法 求解 。 本 节 课 的 解 就 是 closed-form 的 。 关 于 最 小 二 乘法 的 一 些 介绍 ， 请 参见 
我 的 另 一 篇 博文 : 


最 小 二 乘法 和 梯度 下 降 法 的 一 些 总 结 
二 、 线 性 回归 算法 


样本 数据 误差 Bi 是 权重 w 的 遂 数 ， 因 为 和 wy 都 是 已 知 的。 我 们 的 目标 就 是 找 出 合适 
的 w， 使 i 能 够 最 小 。 那 么 如 何 计算 呢 ? 


首先 ， 运 用 算 阵 转 换 的 思想 ， 将 in 计算 转换 为 矩阵 的 形式 .。 


N N 
1 1 
En(w) = N wx, — yn). = N xw — Yn)? 
n=1 n=1 


T 


X4 W — yj 
z 1 x3 W — yo 
s 
XW — YN 
2 
3px -- y 
_ AIKe-2X -- y2 
— N A mis 
UR Yn 


1 2 
= gl X, w -yl 
Nxd+1 d+1x1 Nx1 
Sea, WLR, Ein (w RENOAR. ORANE, RIRE 


一 阶 导 数 等 于 零 的 位 置 ， 就 找到 了 最 优 解 。 那 么 ， 我 们 将 马 v 对 每 个 
wi, i 二 0, 1,.……, d 求 偏 导 ， 偏 导 为 零 的 w;， 即 为 最 优化 的 权重 值 分 布 。 





. Mer 1 2 
min En(w) = = |IXw — yl 





e Ej, (W): continuous, differentiable, convex 
e necessary condition of ‘best’ w 


Ein oan (w) 0 


VEn(w) = gw (W) m 1 


E Y 
w gw- (w) 0 
—not possible to ‘roll down’ 


task: find wn such that V Ein( WEK) 0 





根据 梯度 的 思想 ， 对 如 ,进行 矩阵 话 求 偏 导 处 理 : 


The Gradient V Ein(w) 


1 
En(w) = liXw—yI Sa (wxx aw! X'y 4 vy) 
N A b c 










Ein(w)= gy (waw 一 2w7b + c) 
VEn(w)= ġ (2Aw — 2b) 


Ein(w)=y (aw? — 2bw + c) 
VEin(W)= X (2aw — 2b) 





similar (derived by definition) 


VEin(w) = $ (X'Xw - X'y) | 


令 偏 导 为 零 ， 最 终 可 以 计算 出 权重 向 量 w 为 : 


simple! :-) 





Optimal Linear Regression Weights 
task: find wun such that 2 (X7Xw — X7y) =VEn(w) = 0 


e easy! unique solution e many optimal solutions 


EE e one of the solutions 
Win = (x'x) x y 
— Win = X'y 

pseudo-inverse xt 
by defining X' in other ways 
e often the case because 
N>d+1 





practical suggestion: 
use well-implemented 1 routine 
instead of (X7X) ' X7 
for numerical stability when almost-singular 





最 终 ， 我 们 推导 得 到 了 权重 向 量 w = (XT X) 1XT 9， 这 是 上 文 提 到 的 closed-form 
fe. Erb, (XT X) ! XT 又 称 为 伪 逆 矩阵 pseudo-inverse， 记 为 X+ ， 维 度 是 
(d+1)xN, 


但 是 ， 我 们 注意 到 ， 伪 逆 和 矩阵 中 有 逆 和 矩阵 的 计算 ， 逆 矩阵 (双生 ) -是 否 一 定 存在 ? 一 
般 情 况 下 ， 只 要 满足 样本 数量 N 远 大 于 样本 特征 维度 d+1， 就 能 保证 和 矩阵 的 逆 是 存在 
的 ， 称 之 为 非 奇 异 和 矩阵 。 但 是 如 果 是 奇异 矩阵 ， 不 可 逆 怎 么 办 呢 ? 其实 ， 大 部 分 的 计 
算 逆 矩阵 的 软件 程序 ， 都 可 以 处 理 这 个 问题 ， 也 会 计算 出 一 个 逆 和 矩阵 。 所 以 ， 一 般 伪 
逆 矩 阵 是 可 解 的 。 


三 、 泛 化 问题 


现在 ,可 能 有 这 样 一 个 疑问 ， 就 是 这 种 求解 权重 向 量 的 方法 是 机 器 学 习 吗 ? 或 者 说 这 
种 方法 满足 我 们 之 前 推导 VC Bound, MEDZE Emn ~ Fou? 





Is Linear Regression a ‘Learning Algorithm’? 


Win = Xiy | 










e good Ein? 
yes, optimal! 
e good Eout? 
yes, finite ovc like perceptrons 
e improving iteratively? 
somewhat, within an iterative 
pseudo-inverse routine 


e analytic (closed-form) 
solution, ‘instantaneous’ 

e not improving Ei, nor 

Eout iteratively 





if Eo (Wii) is good, learning ‘happened’! ] 


有 两 种 观点 : 1、 这 不 属于 机 器 学 习 范 畴 。 因 为 这 种 closed-form 解 的 形式 跟 一 般 的 机 器 
学 习 算 法 不 一 样 ， 而 且 在 计算 最 小 化 误差 的 过 程 中 没有 用 到 迭代 。2、 这 属于 机 器 学 习 
范畴 。 因 为 从 结果 上 看 ，Bij, 和 owt 都 实现 了 最 小 化 ， 而 且 实 际 上 在 计算 首 和 矩 阵 的 过 
A, AS TIAN. 

其 实 ， 只 从 结果 来 看 ， 这 种 方法 的 确实 现 了 机 器 学 习 的 目的 。 下 面 通过 介绍 一 种 更 简 
单 的 方法 ， 证 明 linear regression 问 题 是 可 以 通过 线 下 最 小 二 乘法 方法 计算 得 到 好 的 
E;n HEout 的 。 





Benefit of Analytic Solution: 
‘Simpler-than-VC’ Guarantee 


to be sh 
„Enn En(Wun w.r.t. D)} 9 0e 29 noise level - (1 — 44") 





1 1 
Ep(Wun) = gly- 9, I? = ylly-XXyl* 
predictions Wun 


1 
LTA —XXİ)yl]]2 
= ql GL, -XXyll 
identity 


call XX the hat matrix H 
because it puts ^ on y 


首先 ， 我 们 根据 平均 误差 的 思想 ， 把 Bin (wzrrn ) 写 成 如 图 的 形式 ， 经 过 变换 得 到 |: 








1 
Ein (wis) = wl - XX*)yl = | - Hyll? 


ESI 
N 
我 们 称 XXT+ 为 帽子 矩阵， 用 H 表 示 。 

下 面 从 几何 图 形 的 角度 来 介绍 帽子 矩阵 H 的 物理 意义 。 





Geometric View of Hat Matrix 


span of X 











e 9 = XWu within the span of X columns 
e y — ŷ smallest: y — y L span 

e H: project y to 9 € span 

e I—H: transform y to y — y L span 





claim: trace(I — H) = N — (d + 1). Why? :-) ] 


图 中 ，y 是 N 维 空间 的 一 个 向 量 ， 粉 色 区 域 表示 输入 矩阵 X 乘 以 不 同 权 值 向 量 w 所 构成 的 
空间 ,根据 所 有 w 的 取 值 ， 预 测 输出 都 被 限定 在 粉色 的 空间 中 。 向 量 g 就 是 粉色 空间 中 
的 一 个 向 量 ， 代 表 预 测 的 一 种 。y 是 实际 样本 数据 输出 值 。 


机 器 学 习 的 目的 是 在 粉色 空间 中 找到 一 个 y， 使 它 最 接近 真实 的 y， 那 么 我 们 只 要 将 y 在 
粉色 空间 上 作 垂 直 投影 即 可 ， 投 影 得 到 的 儿 即 为 在 粉色 空间 内 最 接近 y 的 向 量 。 这 样 即 
EERE EB, 


从 图 中 可 以 看 出 ，y 是 y 的 投影 ,已 知 = Hy, WAHRSTE yi SIR Rh 
操作 。 图 中 绿色 的 箭头 y 一 是 向 量 y 与 J 相 减 ，y 一 4 牌 直 于 粉色 区 域 。 已 知 

(I— H)y = y — 9 那么 -H 表 示 的 就 是 将 y 投 影 到 y — (BST ie DOSUBS Rhe 
作 。 这 样 的 话 ， 我 们 就 赋予 了 H 和 I-H 不 同 但 又 有 联系 的 物理 意义 。 


这 里 trace(l-H) 称 为 -H 的 迹 ， 值 为 N-(d+1)。 这 条 性 质 很 重要 ， 一 个 和 矩阵 的 trace 等 于 该 
矩阵 的 所 有 特征 值 (Eigenvalues) 忆 和。 下 面 给 出 简单 证 明 : 


trace(I — H) = trace(I) — trace(H) 

= N — trace(XX*) = N — trace(X(XT X) XT 
= N — trace(X? X(X? X) !) = N - trace(Ig.1 
= N — (d 4 1) 


介绍 下 该 |-H 这 种 转换 的 物理 意义 : 原来 有 一 个 有 N 个 自由 度 的 向 量 y， 投 影 到 一 个 有 z 
d+1 维 的 空间 x (代表 一 列 的 自由 度 ， 即 单一 输入 样本 的 参数 ， 如 图 中 粉色 区 域 ) mU pan 





余数 剩余 的 自由 度 最 大 只 有 N-(d+1) 种 。 
在 存在 noise 的 情况 下 ， 上 图 变 为 : 


An Illustrative ‘Proof’ 


span of X 





e if y comes from some ideal f(X) € span plus noise 
e noise transformed by I — H to be y — y 


1 R - 
Ein(Wuw) = gly- ÎI? = wl( >H)noisell? 
= q(N- (d- 1))||noise|* 
Ein = noise level - (1 — x7) 
Eout = noise level - (1 + 45") (complicated!) 


图 中 ， 粉 色 空间 的 红色 箭头 是 目标 函数 f(x)， 虚 线 箭头 是 noise， 可 见 ， 真 实 样本 输出 y 
由 fox) 和 noise 相 加 得 到 。 :由 站 面 推导 ， 已 知 向 量 y 经 过 |-H 转 换 为 y 一 à, MnoiseSy= 
线性 变换 关系 ， 那 么 根据 线性 函数 知识 ， 我 们 推导 出 noise 经 过 I-H 也 能 转换 为 y 一 9. 
则 对 于 样本 平均 误差 ， 有 下 列 推导 成 立 : 


1 、 1 . 1 ; 
En (wir) = ally — 8l = FI- H)noisel|? = —(N — (d + 1))|[noisel] 


即 
= d+1 
Ej, = noiselevel * (1 — ——— 
noiselevel x ( N 
同样 ， 对 Bowt 有 如 下 结论 : 
一 d+1 
Eou = noiselevel * (1 + —) 


(d+1) 


这 个 证 明 有 点 复杂 ， 但 是 我 们 可 以 这 样 理解 : EE ES ERET —y Bí Mti 


t mman 
E m T 





学 上 来 说 ， 轧 ;,, 是 我 们 看 得 到 的 样本 的 平均 误差 ， 如 果 有 noise， 我 们 把 预测 往 noise 那 


Ca, 


边 偏 一 点 ， 让 万 ,好 看 一 点 点 ， 所 以 减 去 3 并 项 。 那 和 同时， 新 的 样本 万 wwt 是 我 们 看 
不 到 的 ， 如 果 noise 在 反方 向 ， AE, snc D, 





SEIS E, SE owe, SESS: 


The Learning Curve 





Fout = noise level - (1 + 2") 


m 
| 


TUN 
= noise level - (1 — %*) 


Expected Error 





Number of Data Points, N 


e both converge to c? (noise level) for N — co 


e expected generalization error: 257 


—similar to worst-case guarantee from VC 


= 





linear regression (LinReg): 
learning ‘happened’! 


“NERA, Bin 5E 逐渐 接近 ， 满 足 瓦 ;五 ， 且 数值 保持 在 noise level, 
这 就 类 似 VC 理论 ， 证 明了 当 N 足 够 大 的 时 候 ， 这 种 线性 最 小 二 乘法 是 可 以 进行 机 器 学 
习 的 ， 算 法 有 效 ! 


Pq, Linear Regression 方 法 解决 Linear Classification 问 题 


之 前 介绍 的 Linear Classification 问 题 使 用 的 Error Measure 方 法 用 的 是 0/1 error， 那 么 
Linear Regression 的 squared error 是 否 能 够 应 用 到 Linear Classification 问 题 ? 





Linear Classification vs. Linear Regression 


Linear Classification Linear Regression 


y = {-1,+1} WM ee 
h(x) = sign(w'x) h(x) = wx 
en(f.y) = [f yl en(f.y) = (9 -y 


NP-hard to solve in general 





efficient analytic solution 


{—1,+1} c R: linear regression for classification? 


Q run LinReg on binary classification data D (efficient) 
O return g(x) = sign(w/,.x) 


but explanation of this heifistic? 





下 图 展示 了 两 种 错误 的 关系 ， 一 般 情 况 下 ，squared error 曲 线 在 0/1 error 曲 线 之 上 。 即 


e77T0/1 < CTP sqr- 


Relation of Two Errors 


erro/1 = [ii^ 天 y| errsqr = (wx 一 y) 





desired y = 1 desired y = 一 1 
一 Squared 
—0/ 
err err 
wx wx 
erro/1 € EtTsqr | 


根据 之 前 的 VC 理论 ，Eowt 的 上 界 满足 : 





Linear Regression for Binary Classification 


erro/1 < errsqr 


VC 
classification Eout(w) < classification En(w) + 
< regression Ein(w) + 


* (loose) upper bound errsqr as err to approximate erro; 
e trade bound tightness for efficiency 


Wn: useful baseline classifier, 
or as initial PLA/pocket vector 


从 图 中 可 以 看 出 ， 用 er7sqr 代 蔡 err0j1 ， 五 ou 仍然 有 上 界 ， 只 不 过 是 上 界 变 得 宽松 
了 。 也 就 是 说 用 线性 回归 方法 仍然 可 以 解决 线性 分 类 问题 ， 效 果 不 会 太 差 。 二 元 分 类 
问题 得 到 了 一 个 更 宽松 的 上 界 ， 但 是 也 是 一 种 更 有 效率 的 求解 方式 。 


五 、 总 结 


本 节 课 ， 我 们 主要 介绍 了 LiriearRegression。 首 先 ， 我 们 从 问题 出 发 ， 想 要 找到 一 条 
直线 拟 合 实际 数据 值 ; 然后 六 我 们 利用 最 小 二 乘法 ， 用 解析 形式 推导 了 权重 w 的 
closed-form 解 ;接着 ， 用 图 形 的 形式 得 到 owt 一 Ein =, WEBB linear 
regression 是 可 以 进行 机 器 学 习 的 ，; 最 后 ， 我 们 证 明 linear regressin 这 种 方法 可 以 用 
在 binary classification 上 ， 昌 然 上 界 变 宽松 了 ， 但 是 仍然 能 得 到 不 错 的 学 习 方 法 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 10 -- Logistic 


Regression 


VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 一 节 课 ， 我 们 介绍 了 Linear Regression 线 性 回归 ， 以 及 用 平方 错误 来 寻找 最 佳 的 权 
重 向 量 w， 获 得 最 好 的 线性 预测 。 本 节 课 将 介绍 Logistic Regression 逻 辑 回 归 问 题 。 


一 、Logistic Regression Problem 


一 个 心脏 病 预 测 的 问题 : 根据 患者 的 年 龄 、 血 压 、 体 重 等 信息 ， 来 预测 患者 是 否 会 有 
心脏 病 。 很 明显 这 是 一 个 二 分 类 问题 ， 其 输出 y 只 有 {-1 人 两 种 情况 。 


二 元 分 类 ,一 般 情况 下 ， 理 想 的 目标 函数 f(x)>0.5 富 则 判断 为 正 类 1;， 若 f(x)<0.5， 则 判 
断 为 负 类 -1。 


ge [Oya] 
gender | mae | 


blood pressure 130/85 
cholesterol level 240 


heart disease? yes 











unknown target 
distribution P(y|x) 


containing f(X) + noise 
























"- learning . - 
| 
aming examples algorithm final "pones 
D: (X1. Y1); --- , (XN, YN A gzef 


err 






hypothesis set 
H 


error measure 
err 






binary classification: 
ideal f(x) = sign (P(+1|x) — 3) € {-1,+1} 
because of classification err 









T: 


E] [u] 
但 是 ， 如 果 我 们 想 知道 的 不 是 患者 有 没有 心脏 病 ， 而 是 到 底 患 者 有 多 大 的 几率 是 心脏 hi P 


病 。 这 表示 ， 我 们 更 关心 的 是 目标 函数 的 值 (分 布 在 0,1 之 间 ) ， 表 示 是 正 类 的 概率 
( 正 类 表示 是 心脏 病 ) 。 这 跟 我 们 原来 讨论 的 二 分 类 问题 不 太一 样 ， 我 们 把 这 个 问题 
称 为 软 性 二 分 类 问题 (soft binary classification) 。 这 个 值 越 接近 1， 表 示 正 类 的 可 能 
性 越 大 ， 越 接近 0， 表 示 负 类 的 可 能 性 越 大 。 
‘soft’ binary classification: 
f(x) = P(+1|x) e [0, 1] 


对 于 软 性 二 分 类 问题 ， 理 想 的 数据 是 分 布 在 [0,1] 之 间 的 具体 值 ， 但 是 实际 中 的 数据 只 
可 能 是 0 或 者 1， 我 们 可 以 把 实际 中 的 数据 看 成 是 理想 数据 加 上 了 噪声 的 影响 。 


target function f(x) = P(+1\x)« 0, 1] 







ideal (noiseless) data 


Xı, yY; —09 = P(+1|x1)) 
X2, Vs = (02 = P(+1|xo)) 


actual (noisy) data 


mi =o ~ pak 





Xo,yo =x ~ P(y|Xo) 


(xu. y% = 0.6 =P xn) ) (xn, yn =x ~ P(ylxn) ) 





same data as hard binary classification, 
different target function | 


TORE mee f(x) = P( 十 1|x) € [0, 1]| 的 话 ， 我 们 如 何 找到 一 个 好 的 Hypothesis 
跟 这 个 目标 函数 很 接近 呢 ? 


首先 ， 根 据 我 们 之 前 的 做 法 ， 对 所 有 的 特征 值 进行 加 权 处 理 。 计 算 的 结果 s， 我 们 称 之 


为 'risk score': 





e For X = (Xo, X1, Xo,--- , Xa) ‘features of 
patient’, calculate a weighted ‘risk score’: 


d 
S— Y wx 
i=0 


e convert the score to estimated probability 
by logistic function 0(s) 


但 是 特征 加 权 和 s € (一 co, 十 co)， 如 何 将 s 值 限定 在 [0,1] 之 间 呢 ?一 个 方法 是 使 用 


sigmoid Function， 记 为 6(s)。 那 么 我 们 的 目标 就 是 找到 一 个 hypothesis: 
h(x) = 0(w! x), 


e For x = (X0, X1, Xo,--- ,Xq) ‘features of 
patient’, calculate a weighted “risk score’: 


d 
sS = » | WjX; 


i=0 














e convert the score to estimated probability 
by logistic function 6(s) 





logistic hypothesis: h(x) = 6(w x) ] 
Sigmoid Function 函 数 记 为 0(s) = i 满足 0( 一 co) = 0, 6(0) = i 


0( 十 co) — 1。 这 个 函数 是 平滑 的 、 单 调 的 S 型 函数 。 则 对 于 逻辑 回归 问题 ， 
hypothesis 就 是 这 样 的 形式 : 


1 


h(a) = ———— 
(x) 1 十 e-wrz 


那 我 们 的 目标 就 是 求 出 这 个 预测 函数 h(x)， 使 它 接近 目标 六 数 f(x)。 


二 、Logistic Regression Error 





现在 我 们 将 Logistic Regression 与 之 前 讲 的 Linear Classification、Linear Regression 
做 个 比较 : 


linear classification 






linear regression 


logistic regression 





h(x) = sign(s) h(x) = 6(s) 
> i iy) » h(x) X B h(x) 
plausible err = 0/1 friendly err = squared 

err = ? 


(small flipping noise) (easy to minimize) 


这 三 个 线性 模型 都 会 用 到 线性 scoring function s = wg, linear classification 的 误差 
使 用 的 是 0/1 err; linear regression 的 误差 使 用 的 是 squared'ierr。 那么 logistic 
regression 的 误差 该 如 何 定义 呢 ? 


先 介绍 一 下 " 似 然 性 "的 概念 。 目 标 函 数 帮 z) = Z)， 如 果 我 们 找到 了 
hypothesis 很 接近 target function。 也 就 是 说 ,在 所 有 的 Hypothesis 集 合 中 找到 一 个 
hypothesis 与 target function 最 接近 ， 能 产生 同样 的 数据 集 D， 包 含 y 输 出 label， 则 称 这 
个 hypothesis 是 最 大 似 然 likelihood。 








Likelinood 
target function _ J f(x) for y = +1 
f(x) = P(-+1|x) > Ss { 1— f(x) fory=—1 
consider D = ((X1,9), (Xo, x),.--, (Xn, X) 
likelihood that generates D 
P(x1)^(X1) x 
P(X2)(1 — h(x2)) x 


probability that generates D 


P(xi)f(x1) x 
P(x2)(1 — f(x2)) x 


P(xw)(1 — f(xN)) P(xu)(1 — h(Xu)) 








e if hz: f, 
then likelihood(^) ~ probability using f 
e probability using f usually large 





logistic function: h(x) = 6(w zx) 满足 一 个 性 质 : 1— h(x) = h(—2). BBA, 1A 
性 h: 


likelihood(h) = P(zi)h(--z1) x P(x2)h(—22) x --- P(zN)h(—zN) 


因为 P(x ) 对 所 有 的 h 来 说 -都 是 一 样 的 ， 所 以 我 们 可 以 忽略 它 。 那 么 我 们 可 以 得 到 
logistic h 正 比 于 所 有 的 (yz) 乘积 。 我 们 的 目标 就 是 让 乘积 值 最 大 化 、。 


N 
max likelinood(logistic h) o Il h(ynXn) 


如 果 将 w 代 入 的 话 : 


N 
max likelihood(w) œ J] 6 (ynw™xn) 


n=1 


为 了 把 连 乘 问题 简化 计算 ， 我 们 可 以 引入 In 操作 ， 让 连 乘 转化 为 连 加 : 





max In TT 0 (ynw xn ) 


n] 


接着 ， 我 们 将 maximize 问 题 转化 为 minimize 问 题 ， 添 加 一 个 负 号 就 行 ， 并 引入 平均 数 
操作 方 : 


N 


min be Ting (ynwTxn) 


n=1 


将 logistic function 的 表达 式 带 入 ， 那 么 minimize 问 题 就 会 转化 为 如 下 形式 : 


N 
= 1 T 
0(s) — 1 + exp(—s) mi | 2. In (1 + exp(— Yn Xn)) 
N 
— min X en(w, Xn; Yn) 
n=1 


Ein(w) 


至 此 ， 我 们 得 到 了 logistic regression 的 err function, X Across-entropy erroraz Wij 
误差 : 


err(W, X, y) = In (1 + exp(—ywx)): 
cross-entropy error 


=, Gradient of Logistic Regression Error 


我 们 已 经 推导 也; 的 表达 式 ， 那 接 下 来 的 问题 就 是 如 何 找到 合适 的 向 量 w， 让 in 最 


小 。 





N 
: 1 
min En(w) — M »» In ( 十 exp(—ynw"Xn)) 


n=1 


Logistic Regression 的 Bi 是 连续 、 可 微 、 二 次 可 微 的 凸 曲线 (开口 向 上 ) ， 根 据 之 前 
Linear Regression 的 思路 ， 我 们 只 要 计算 jj 的 梯度 为 零 时 的 v， 即 为 最 优 解 。 


e Ein(W): continuous, differentiable, 
twice-differentiable, convex 
e how to minimize? locate valley 


want V Ejn(w) = 0 








对 Ein 计算 梯度 ， 学 过 微 积 分 的 都 应 该 很 容易 计算 出 来 : 






2 
En(w) = 2 in 1 二 exp( 一 ynw Xn) 
m 





Fol) _ 1 » (25) (< LER (2 一 ym xe) 


» (5) (emn) (mn 


一 - 


一 exp(O) x 
"C eg) (- yi) = Hd > wo YnXn,i) 


nzi 


zl 
2 


a s 


— 


m s 


最 终 得 到 的 梯度 表达 式 为 : 





N 
V En(w) = N $0 (—ynw! Xn) (—YnXn) 
nz1 
为 了 计算 Bi 最 小 值 ， 我 们 就 要 找到 让 V Ein (w) 等 于 0 的 位 置 。 


N 
min Ein(w) = 4) In (1 + exp(—ynw"Xn)) 


n=1 


want V Ej, (W) 


1 z 
N 9 (—ynw Xn) (—YnXn) =0 


n=1 


上 式 可 以 看 成 0( 一 yw,w7 zn ) 是 一 yn Tn ARE. ERO yn WT za) 与 一 加 Zn 的 
线性 加 权 和 为 0， 那 么 一 种 情况 是 线性 可 分 ， 如 果 所 有 的 权重 0( 一 yw 了 zn) 为 0， 那 
就 能 保证 V Ein (w)790.. O(—yn WT £n )Æsigmoid function， 根 据 其 特性 ， 只 要 让 
一 ynwl zn «0, BPyn wi tn > 0, ynw zn 次 -0 表示 对 于 所 有 的 点 ， 妇 与 

wz2zn 都 是 同 号 的 ， 这 表示 数据 集 D 必 须 是 全 部 线性 可 分 的 才能 成 立 。 

然而 ， 保 证 所 有 的 权重 0( 一 yn,w7 zw ) 为 0 是 不 太 现实 的 ， 总 有 不 等 于 0 的 时 候 ， 那 么 
另 一 种 常见 的 情况 是 非 线性 可 分 ，- 只 能 通过 使 加 权 和 为 零 ， 来 求解 w。 这 种 情况 没有 
closed-form 解 ， 与 Linear Regression 不 同 ， 只 能 用 人 迭代 方法 求解 。 







scaled -weighted sum of 





e all (-) = 0: only if y,w’x, > 0 
—linear separable D 


e weighted sum = 0: 
non-linear equation of w 


closed-form solution? no :-( 


之 前 所 说 的 Linear Regression 有 closed-form 解 ， 可 以 说 是 “一步 登 天 "的 ;但 是 PLA 算 
法 是 一 步 一 步 修 正 返 代 进 行 的 ， 每 次 对 错误 点 进行 修正 ， 不 断 更 新 w 值 。PLA 的 和 迭代 
优化 过 程 表示 如 下 : 





PLA: start from some wo (Say, 0), and ‘correct its mistakes on D | 


Por t= 0.13. 
o 


© (equivalently) pick some n, and update w; by 


Wr € Wi 十 [sign (w xn) 7 Yo| ynXn 


when stop, return last w as g 





w 每 次 更 新 包含 两 个 内 容 : 一 个 是 每 次 更 新 的 方向 加 Zn， 用 v 表 示 ， 另 一 个 是 每 次 更 
新 的 步 长 7。 参 数 (v, mn) 和 终止 条 件 决定 了 我 们 的 迭代 优化 算法 。 


ForT-— D. 1... 
© (equivalently) pick some n, and update w; by 


Wii € Wi 1 (sign (w7 xn) 一 yo] ynxn) 
— ———— 


v 


7 
when stop, return last w as 9 


choice of (7, v) and stopping condition defines 
iterative optimization approach | 


Pq. Gradient Descent 





REE —/\SPLARI RR, IAL Awe SER : 





For ?=0.1,... 
Witi C0 We + nV 


when stop, return last w as 9 


我 们 把 Bin, (w) 曲 线 看 做 是 一 个 山谷 的 话 ， 要 求 B;n, (w) 最 小 ， 即 可 比 作 下 山 的 过 程 。 
整个 下 山 过 程 由 两 个 因素 影响 : 一 个 是 下 山 的 单位 方向 v， 另 外 一 个 是 下 山 的 步 长 ”。 


e PLA: v comes from mistake correction 


e smooth En(w) for logistic regression: 
choose v to get the ball roll ‘downhill’? 
e direction v: 
(assumed) of unit length 
e Step size 7: 
(assumed) positive 


In-sample Error, Ein 


Weights, w 





a greedy approach for some given 7 > 0: 







min Ej(W; + nv) 
v=1 A "—— 
Writ 


利用 微分 思想 和 线性 近似 ， 假 设 每 次 下 山 我 们 只 前 进 一 小 步 ， 即 7 很 小 ， 那 么 根据 泰 
勒 Taylor 一 阶 展开 ， 可 以 得 到 : 


Ein (we 十 nv) ~ Ein (wx) 十 nu’ V Ein (w) 


关于 Taylor 展 开 的 介绍 ， 可 参考 我 男 一 篇 博客 : 
多 元 函数 的 泰勒 (Taylor) 展 开 式 


迭代 的 目的 是 让 妈 ; 越 来 越 小 ， 即 让 Bin (wi + nv) < Ej (wi). NE, AW 
果 两 个 向 量 方向 相反 的 话 ， 那 么 他 们 的 内 积 最 小 (Am) ， 也 就 是 说 如 果 方 向 v 与 梯 
EV Ein (wi ) 反 向 的 话 ， 那 么 就 能 保证 每 次 迭代 Bi (wi + nv) < Ein (wi ) 都 成 立 。 
则 ， 我 们 令 下 降 方向 为 : 

V Ein (wi) 

|V Ein (we )|| 


4 是 单位 向 量 ，Yv 每 次 都 是 沿 着 梯度 的 反方 向 走 ， 这 种 方法 称 为 梯度 下 降 (gradient 
descent) 算法 。 那 么 每 次 迭代 公式 就 可 以 写成 : 


v= 一 





[|V Ein (ws )]| 


下 面 讨 论 一 下 7 的 大 小 对 迭代 优化 的 影响 : 7 如 果 太 小 的 话 ， 那 么 下 降 的 速度 就 会 很 
ig; 7 如 果 太 大 的 话 ， 那 么 之 前 利用 Taylor 展 开 的 方法 就 不 准 了 ， 造 成 下 降 很 不 稳定 ， 
甚至 会 上 升 。 因 此 ，” 应 该 选择 合适 的 值 ， 一 种 方法 是 在 梯度 较 小 的 时 人 息 ， 选 择 小 的 ” 
， 梯 度 较 大 的 时 候 ， 选 择 大 的 m”， 即 正比 于 ||V Ein (wi) 上。 这样 保 证 了 能 够 快速 、 
稳定 地 得 到 最 小 值 Ei, (w). 


Wii — Wt — 1] 















large 7 





small 7 


In-sample Error, Fin 
In-sample Error, Ej, 
In-sample Error, Ein 









Weights, w 
too slow :-( 






Weights, w 
too unstable :-( 


Weights, w 
use changing 7 





n better be monotonic of ||V Ein (Wi)|| 


对 学 习 速 率 7 做 个 更 修正 > 梯度 下 降 算 法 的 迭代 公式 可 以 写成 : 


wi € wi — 9 V Ej (wt) 


8 


/ n 


1 Tos /vi 
IV Ein (we) | 


总 结 一 下 基于 梯度 下 降 的 Logistic Regression 算 法 步骤 如 下 : 
。 初始 化 wo 
。 计 算 梯度 V Ein (w) = + Ya 0—yn wT zn)(—yn Fn) 
。 迁 代 跟 新 wii 7 wi — nV Bin (wi) 
。 满足 V Lin (w1) © 0 或 者 达到 进 代 次 数 ， 先 代 结 束 





五 、 总 结 


我 们 今天 介绍 了 Logistic Regression。 首 先 ， 从 逻辑 回归 的 问题 出 发 ， 将 已 (十 1 z) 作 
为 目标 函数 ， 将 0(w7 z) 作 为 hypothesis。 接 着 ， 我 们 定义 了 logistic regression 的 err 
function， 称 之 为 cross-entropy errora2 V MBize, JA, Fit Blogistic regression 
error 的 梯度 ， 最 后 ， 通 过 梯度 下 降 算 法 ， 计 算 V Ein (wi) ~ 0 时 对 应 的 wi 值 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 基石 》 课 程 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 11 -- Linear Models 


for Classification 


VES: 红色 石头 ARE: AË (id: redstonewill) 


上 一 节 课 ， 我 们 介绍 了 Logistic Regression 问 题 ， 建 立 cross-entropy error， 并 提出 使 
用 梯度 下 降 算 法 gradient descnt 来 获得 最 好 的 logistic hypothesis。 本 节 课 继续 介绍 使 
用 线性 模型 来 解决 分 类 问题 。 


一 、Linear Models for Binary Classification 


之 前 介绍 几 种 线性 模型 都 有 一 个 共同 点 ， 就 是 都 有 样本 特征 x 的 加 权 运 算 ， 我 们 引入 一 
个 线性 得 分 函数 s: 


s=w' az 


三 种 线性 模型 ， 第 一 种 是 linear classification。 线 性 分 类 模型 的 hypothesis 为 

h(x) = sign(s), 取 值 范围 为 {-1,+ 们 两 个 值 ， 它 的 err 是 0/1 的 ， 所 以 对 应 的 Bin, (由 ) 是 
离散 的 ， 并 不 好 解 ， 这 是 个 NP-hard 问 题 。 第 二 种 是 linear regression。 线 性 回归 模型 
的 hypothesis 为 h(x) = sS， 取 值 范围 为 整个 实数 空间 ， 它 的 err 是 squared 的 ， 所 以 对 
MAN Ein (由 ) 是 开口 向 上 的 三 次 曲线 ， 其 解 是 closed-form 的 ， 直 接 用 线性 最 小 二 乘法 
求解 即 可 。 第 三 种 是 logistic regression。 风 辑 回归 模型 的 hypothesis 为 h(x) = 0(s) 
， 取 值 范 围 为 (-1,1) 之 间 ， 它 的 err 是 cross-entropy 的 ， 所 有 对 应 的 Bin, (ww) 是 平滑 的 凸 
函数 ， 可 以 使 用 梯度 下 降 算法 求 最 小 值 。 





logistic regression 


linear classification ' linear regression 











h(x) = sign(s) h(x) =s h(x) = 6(s) 

Xo Xo Xo 

x; ? x; ^ "E s 

X2 an - h(x) | x, h(x) | x; h(x) 

Xa Xa Xa 

plausible err = 0/1 friendly err = squared plausible err = cross-entropy 

discrete En(w): quadratic convex En(w): smooth convex Ein (W): 
NP-hard to solve closed-form solution gradient descent 








从 上 图 中 ， 我 们 发 现 ，linear regression 和 logistic regression 的 error function 都 有 最 小 
解 。 那 么 可 不 可 以 用 这 两 种 方法 来 求解 linear classification 问 题 呢 ? 下 面 ， 我 们 来 对 这 
三 种 模型 的 error function 进 行 分 析 ， 看 看 它们 之 间 有 什么 联系 。 


对 于 linear classification， 它 的 error function 可 以 写成 : 


erro/i(8,y) = |sign(s) # y| = |sign(ys) 7 1| 


对 于 linear regression, EAYerror function 可 以 写成 : 


errsgr(s,y) = (s — y)? = (ys — 1)? 


对 于 logistic regression, tHYerror function 可 以 写成 : 


errog(s,y) = In(1 + exp(—ys)) 


上 述 三 种 模型 的 error function 都 引入 了 ys 变量 ， 那 么 ys 的 物理 意义 是 什么 ”ys 就 是 指 
分 类 的 正确 率 得 分 ， 其 值 越 大 越 好 ， 得 分 越 高 。 


linear classification ' linear regression logistic regression 



























h(x) =  sign(s) hx) = G h(x) = (s) 
err(h,x,y) = [A(x) AY] |-em(hx.y) = (A(x)—y)? | er(h,x,y) = —Inh(yx) 
erro/1(S, y) errsor(S, y) errce(S, y) 
= [sign(s) 4 y] = (s-yY = In(1 + exp(—ys) 

[sign(ys) # 1] (Ys= 1) 


(ys): classification correctness score | 


下 面 ， 我 们 用 图 形 化 的 方式 来 解释 三 种 模型 的 error function 到 底 有 什么 关系 : 





Visualizing Error Functions 
0/1 erro/(s,y) = [sign(ys) 7 1] 
sqr errsar(S, y) = (ys—1)* 


ce errce (S,y) = In(1-- exp(—ys)) 
scaled ce errsce(S,y) = lo0g,(1 + exp(—ys)) 
6 —0^A e 0/1: 1 iff ys < 0 


—sqr s 
4 —ce 
err 
2 
1 e 
0 
-3 -2 -1 0 1 2 3 





sqr: large if ys < 1 
but over-charge ys > 1 
small errson — small errg /1 


ce: monotonic of ys 

small errce + small erro 
scaled ce: a proper upper bound of 0/1 
small errsce +> small erro 


从 上 图 中 可 以 看 出 ，ys 是 横 坐 标 轴 ，err0y1 是 呈 阶 梯 状 的 ， 在 ys>0 时 ，err0y1 恒 取 最 
小 值 0。er7soR 呈 抛物 线形 式 ， 在 ys=1 时 ， 取 得 最 小 值 ; 且 在 ys=1 左 右 很 小 区 域内 ， 
e7r70/1 和 e77s@R 近 似 。e77cP 是 呈 指 数 下 降 的 单调 阔 数 ，ys 越 大 ， 其 值 越 小 。 同 样 
在 ys=1 左 右 很 小 区 域内 ，err0j1 和 errog 近 似 。 但 是 我 们 发 现 errcg 并 不 是 始终 在 
err70/1 之 上 ， 所 以 为 了 计算 讨论 方便 ,我们 把 errcg 做 幅 值 上 的 调整 ， 引 入 
errgcg = loga (1 + exp(—ys)) = 


上 面 ， 如 下 图 所 示 : 


nz errcg， 这 样 能 保证 errscp 始 终 在 err0/1 


Visualizing Error Functions 
0/1 





erro/1(s,y) = [sign(ys) 7 1] 
errsop(S,y) = (ys—1)? 


errce (S, y) 


In(1 + exp(—ys)) 


emsce(S,y) = log.(1+exp(—ys)) 


0/1: 1 iff ys < 0 

sqr: large if ys « 1 

but over-charge ys 1 

small errson — small errg /; 

ce: monotonic of ys 

small errce +> small erro; 

scaled ce: a proper upper bound of 0/1 
small errsce €» small erro 4 





由 上 图 可 以 看 出 : 


1 
erro/i(s,y) € errsce(s, y) = ing er"CE(S,Y) 


E (w) < BSCE (w) = — ECE 
wm (w) m E, (w) in2 wm (w) 
0/1 
E (w) < ESCF (w) = zz BSE (w) 
那么 由 VC 理论 可 以 知道 : 
从 0/1 出 发 : 


Ej, (w) < go (w) + 09/1 < = EC? (w) + Q9?/1 
TV 


从 CE 出 发 : 


1 
ED (w) < BCE (w8 ESP (w) + 0^7 


out in 


For any ys where s — w?x 


erro (Sy) < errsce(S, Y) = Fserrce(s, y). 


— Ew) < E(w) = ES (w) 
ESL (wW) < ESG (w) = 十 E(wW) 
VC on 0/1: VC-Reg on CE : 
0/1 0/1 
EX (w) < 民 (w+o [| E/'(w) < ESE (w) 
< po ESF (w) + o < gl ECt(w) -- c, O08 





small EcE(w) —. small E! (w): 


logistic/linear reg. for linear classification 









通过 上 面 的 分 析 ， 我 们 看 到 err 0/1 是 被 限定 在 一 个 上 界 中 。 这 个 上 界 是 由 logistic 
regression 模 型 的 error function 决 定 的 。 而 linear regression 其 实 也 是 linear 
classification 的 一 个 upper bound， 只 是 随 着 sy 偏离 1 的 位 置 越 来 越 远 ，linear 
regression 的 error function 偏 差 越 来 越 大 。 综 上 所 述 ，linear regression 和 logistic 
regression 都 可 以 用 来 解决 linear classification 的 问题 。 


下 图 列举 了 PLA、linear regression, logistic regression 模 型 用 来 解 linear 


， 再 用 logistic regression 模 型 进行 最 优化 解 。 






linear regression logistic regression 










e pros: efficient + * pros: e pros: 
strong guarantee ‘easiest’ ‘easy’ 
if lin. separable optimization optimization 


e cons: loose 
bound of errg/; for 
very negative ys 


e cons: loose 
bound of €ITQ /1 
for large |ys| 


e cons: works only if 
lin. separable, 
otherwise needing 
pocket heuristic 





| 





e linear regression sometimes used to set Wo for 
PLA/pocket/logistic regression 


e logistic regression often preferred over pocket 





—. Stochastic Gradient Descent 


之 前 介绍 的 PLA 算 法 和 logistic regression A, Bb TARRE. PLASEXIE(X 
只 会 更 新 一 个 点 ， 它 每 次 迭代 的 时 间 复 杂 度 是 O(1); 而 logistic regression p RARE 
对 所 有 NN 个 点 都 进行 计算 ， 它 的 每 时 间 复 杂 度 是 O(N)。 为 了 提高 logistic regression 中 
gradient descent 算 法 的 速度 ， 可 以 使 用 另 一 种 算法 : 随机 梯度 下 降 算法 (Stochastic 
Gradient Descent)。 


随机 梯度 下 降 算 法 每 次 进 代 只 找到 一 个 点 ， 计 算 该 点 的 梯度 ， 作 为 我 们 下 一 步 更 新 w 
的 依据 。 这 样 就 保证 了 每 次 运 代 的 计算 量 大 大 减 小 ， 我 们 可 以 把 整体 的 梯度 看 成 这 个 
随机 过 程 的 一 个 期 望 值 。 





N 
Wii C Wr 7) = 0 (-yawt Xn) (YnXn) 


Pi 


-V Ein(Wt) 





e want: update direction v ~ —V Ein (Wi) 
while computing v by one single (Xn, yn) 


N 
e technique on removing ;; 5: 


n=1 
view as expectation € over uniform choice of n! 


stochastic gradient: 
Vw err(W, Xn, Yn) with random n 
true gradient: 
Vw En(W)= E Vw err(W. Xp, Yn) 
random n 





随机 梯度 下 降 可 以 看 成 是 真实 的 梯度 加 上 均值 为 零 的 随机 噪声 方向 。 单 次 迭代 看 ， 好 
像 会 对 每 一 步 找到 正确 梯度 方向 有 影响 ， 但 是 整体 期 望 值 上 看 ， 与 真实 梯度 的 方向 没 
有 差 太 多 ， 同 样 能 找到 最 小 值 位 置 。 随 机 梯度 下 降 的 优点 是 减少 计算 量 ， 提 高 运算 速 
度 ， 而 且 便 于 online 学 习 ; 缺点 是 不 够 稳定 ， 每 次 迭代 并 不 能 保证 按照 正确 的 方向 前 
进 ， 而 且 达 到 最 小 值 需要 人 迭代 的 次 数 比 梯度 下 降 算法 一 般 要 多 。 


Stochastic Gradient Descent 


e idea: replace true gradient by stochastic gradient 


e after enough steps, 
average true gradient ~ average stochastic gradient 


e pros: simple & cheaper computation :-) 
—useful for big data or online learning 


e cons: less stable in nature 





对 于 logistic regression 的 SGD， 它 的 表达 式 为 : 
Ur € We + T8 (—y, wi Zn) (yn ta) 


我 们 发 现 ，SGD 与 PLA 的 迭代 公式 有 类 似 的 地 方 ， 如 下 图 所 示 : 





SGD logistic regression: 
Wii € Wrt 9-0 (—ynw? Xn) (YnXn) 


PLA: 
Wri 和 Wi 十 1 [yn # sign(w/ xn)| (YnXn) 


我 们 把 SGD logistic regression 称 之 为 'soft PLA， 因 为 PLA 只 对 分 类 错误 的 点 进行 修 
正 ， 而 SGD logistic regression 每 次 迭代 都 会 进行 或 多 或 少 的 修正 。 另 外 ， 当 7 — 1, 
Bu} zn 足 够 大 的 时 候 ，PLA 近 似 等 于 SGD。 


e SGD logistic regression ~ ‘soft’ PLA 
e PLA ~ SGD logistic regression with n = 1 when wj xn large 


除 此 之 外 ， 还 有 两 点 需要 说 明 : 1、SGD 的 终止 迭代 条 件 。 没 有 统一 的 终止 条 件 ， 一 
般 让 和 迭 代 次 数 足够 多 ; 2、 学 习 速 率 %。7 的 取 值 是 根据 实际 情况 来 定 的 ， 一 般 取 值 0.1 
就 可 以 了 。 


=, Multiclass via Logistic Regression 


之 前 我 们 一 直 讲 的 都 是 二 分 类 问题 一 本 节 主 要 介绍 多 分 类 问题 ， 通 过 linear 
classification 来 解决 。 假 设 平 面 上 有 四 个 类 ， 分 别 是 正方 形 、 萎 形 、 三 角形 和 星 形 ， 
如 何 进 行 分 类 模型 的 训练 呢 ? 


首先 我 们 可 以 想到 这 样 一 个 办 法 ， 就 是 先 把 正方 形 作 为 正 类 ， 其 他 三 种 形状 都 是 负 
类 ， 即 把 它 当 成 一 个 二 分 类 问题 ， 通 过 linear classification 模 型 进行 训练 ， 得 出 平面 上 
某 个 图 形 是 不 是 正方 形 ， 且 只 有 {-1,+1} 两 种 情况 。 然 后 再 分 别 以 鞭 形 、 三 角形 、 星 形 
为 正 类 ， 进 行 二 元 分 类 。 这 样 进行 四 次 二 分 类 之 后 ， 就 完成 了 这 个 多 分 类 问题 。 





Multiclass Prediction: Combine Binary Classifiers 











但 是 ， 这 样 的 二 分 类 会 带 来 一 些 问题 ， 因 为 我 们 只 用 {-1，+1} 两 个 值 来 标记 ， 那 么 平 
面 上 某 些 可 能 某 些 区 域 都 被 上 述 四 次 二 分 类 模型 判断 为 负 类 ， 即 不 属于 四 类 中 的 任何 
一 类 ; 也 可 能 会 出 现 某 些 区 域 同 时 被 两 个 类 甚至 多 个 类 同时 判断 为 正 类 ， 比 如 某 个 区 
域 又 判定 为 正方 形 又 判定 为 菱形 。 那 么 对 于 这 种 情况 ， 我 们 就 无 法 进行 多 类 别 的 准确 
判断 ， 所 以 对 于 多 类 别 ， 简 单 的 binary classification 不 能 解决 问题 。 

针对 这 种 问题 ， 我 们 可 以 使 用 另外 一 种 方法 来 解决 : soft 软 性 分 类 ， 即 不 用 {-1，+ 人 } 这 


种 binary classification， 而 是 使 用 logistic regression， 计 算 某 点 属于 某 类 的 概率 、 可 
能 性 ， 去 概率 最 大 的 值 为 那 一 类 就 好 。 


soft classification 的 处 理 过 程 和 之 前 类 似 ， 同 样 是 分 别 令 某 类 为 正 ， 其 他 三 类 为 负 ， 不 
同 的 是 得 到 的 是 概率 值 ， 而 不 是 (1，+1}。 最 后 得 到 某 点 分 别 属于 四 类 的 概率 ， 取 最 
大 概率 对 应 的 哪 一 个 类 别 就 好 。 效 果 如 下 图 所 示 : 





Multiclass Prediction: Combine Soft Classifiers 










ooo o p x^ 


o Cr 
99 KE 


g(x) = argmax, cy ^ (whx) | 


这 种 多 分 类 的 处 理 方式 ， 我 们 称 之 为 DOns=Versus-All(OVA) Decomposition, ix#PA IH 
的 优点 是 简单 高 效 ， 可 以 使 用 logisticregression 模 型 来 解决 ; 缺点 是 如 果 数 据 类 别 很 
多 时 ， 那 么 每 次 二 分 类 问题 中 7 正 类 和 负 类 的 数量 差别 就 很 大 ， 数 据 不 平衡 
unbalanced， 这 样 会 影响 分 类 效果 。 但 是 ，OVA 还 是 非常 常用 的 一 种 多 分 类 算法 。 











One-Versus-All (OVA) Decomposition 


O forkey 
obtain wy by running logistic regression on 


Dik = {(%n, Yn = 2 [Yn = k] - 128 


© return g(x) = argmax, c, (whx) 





e pros: efficient, 
can be coupled with any logistic regression-like approaches 


e cons: often unbalanced Dix when K large 
e extension: multinomial (‘coupled’) logistic regression 


OVA: a simple multiclass meta-algorithm 
to keep in your toolbox | 
四 、Multiclass via Binary Classification 


上 一 节 ， 我 们 介绍 了 多 分 类 算法 OVA， 但 是 这 种 方法 存在 一 个 问题 ， 就 是 当 类 别 k 很 多 
的 时 候 ， 造 成 正 负 类 数据 unbalanced 必 会 影响 分 类 效果 ， 表 现 不 好 。 现 在 ， 我 们 介绍 
另 一 种 方法 来 解决 当 k 很 大 时 ,, OVA 带 来 的 问题 。 


这 种 方法 呢 ， 每 次 只 取 两 类 进行 binary classification， 取 值 为 {-1，+ 们 。 假 如 k=4， 那 
么 总 共 需 要 进行 Cf = 6 次 binary classification。 那 么 ， 六 次 分 类 之 后 ， 如 果 平面 有 个 
点 ， 有 三 个 分 类 器 判断 它 是 正方 形 ， 一 个 分 类 器 判断 是 菱形 ， 另 外 两 个 判断 是 三 角 
形 ， 那 么 取 最 多 的 那个 ， 即 判断 它 属 于 正方 形 ， 我 们 的 分 类 就 完成 了 。 这 种 形式 就 如 
同 k 个 足球 对 进行 单 循环 的 比赛 ， 每 场 比 赛 都 有 一 个 队 赢 ， 一 个 队 输 ， 赢 了 得 1 分 ， 输 
了 得 0 分 。 那 么 总 共 进 行 了 CY 次 的 比赛 ， 最 终 取得 分 最 高 的 那个 队 就 可 以 了 。 





Multiclass Prediction: Combine Pairwise Classifiers 





























x 

EE UE 

x" * SO esis 

o* o 
x x x X x 
x 

xX xx 次 x 
c — * 


g(x) = tournament champion Iw jx) 
(voting of classifiers) 





这 种 区 别 于 OVA 的 多 分 类 方法 叫做 One-Versus-One(OVO)。 这 种 方法 的 优点 是 更 加 高 
效 ， 因 为 虽然 需要 进行 的 分 类 次 数 增加 了 7 但 是 每 次 只 需要 进行 两 个 类 别 的 比较 ， 也 
就 是 说 单 次 分 类 的 数量 减少 了 。 而 且 一 般 不 会 出 现 数据 unbalanced 的 情况 。 缺 点 是 需 
要 分 类 的 次 数 多 ， 时 间 复 杂 度 和 空间 复杂 度 可 能 都 比较 高 。 





One-versus-one (OVO) Decomposition 


@ for (k, eyxy 
obtain wi, 4 by running linear binary classification on 





O return g(x) — tournament champion [wis ax] 


e pros: efficient (smaller training problems), stable, 
can be coupled with any binary classification approaches 


e cons: use O(K?) wy. a 
一 more space, slower prediction, more training 


OVO: another simple multiclass 
meta-algorithm to keep in your toolbox | 





五 、 总 结 


本 节 课 主要 介绍 了 分 类 问题 的 三 种 线性 模型 : linear classification, linear regression 
和 logistic regression。 首 先 介 绍 了 这 三 种 linear models 都 可 以 来 做 binary 
classification。 然 后 介绍 了 比 梯度 下 降 算 法 更 加 高 效 的 SGD 算 法 来 进行 logistic 
regression 分 析 。 最 后 讲解 了 两 种 多 分 类 方法 ， 一 种 是 OVA， 另 一 种 是 OVO。 这 两 种 
方法 各 有 优 缺 点 ， 当 类 别 数量 k 不 多 的 时 候 ， 建 议 选 择 OVA， 以 减少 分 类 次 数 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《 机 器 学 习 基石 》 课 程 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 12 -- Nonlinear 


Transformation 


VES: 红色 石头 ARS: Al 有 道 (id: redstonewill) 


上 一 节 课 ， 我 们 介绍 了 分 类 问题 的 三 种 线性 模型 ， 可 以 用 来 解决 binary classification 和 
multiclass classification 问 题 。 本 节 课 主要 介绍 非 线 性 的 模型 来 解决 分 类 问题 。 


一 、Quadratic Hypothesis 


之 前 介绍 的 线性 模型 ， 在 2D 平 面 上 是 一 条 直线 ， 在 3D 空 间 中 是 一 个 平面 。 数 学 上 ， 我 们 用 线 
性 得 分 函数 s 来 表示 : s=wu' zz。 其 中 ，x 为 特征 值 向 量 ，w 为 权重 ，s 是 线性 的 。 











®) visually: ‘line’-like 
boundary 


e mathematically: linear 
scores s = w’ x 


线性 模型 的 优点 就 是 ， 它 的 VC Dimension 比 较 小 ,保证 了 Bij, ~ Bowt。 但 是 缺点 也 很 明显 ， 
对 某 些 非 线 性 问题 ， 可 能 会 造成 in 很 大 ， BAB, ~ Eou, BEERE out A, DAN 
果 不 佳 。 








e theoretically: dys under 
control :-) 


e practically: on some D, 
large En for every line :-( 


为 了 解决 线性 模型 的 缺点 ， 我 们 可 以 使 用 非 线 性 模型 来 进行 分 类 。 例 如 数据 集 D 不 是 线性 可 分 
的 ， 而 是 圆 形 可 分 的 ， 圆 形 内 部 是 正 类 ， 外 面 是 负 类 。 假 设 它 的 hypotheses 可 以 写成 : 


hsgp(z) = sign(—a? — z? + 0.6) 


基于 这 种 非 线性 思想 ， 我 们 之 前 讨论 的 PLA、Regression 问 题 都 可 以 有 非 线性 的 形式 进行 求 
解 。 





Circular Separable 











e D not linear separable 


e but circular separable by a circle of 
radius v0.6 centered at origin: 








hsee(X) = = sign (- x 一 % +0. 6) 


re-derive Circular-PLA, Circular-Regression, 
blahblah ... all over again? :-) | 

下 面 介 绍 如 何 设计 这 些 非 线性 模型 的 演算 法 ,< 还 是 上 面 介绍 的 平面 圆 形 分 类 例子 ， 它 的 h(x) 的 

权重 w0=0.6，w1=-1，w2=-1， 但 是 hy 的 竺 征 不 是 线性 模型 的 (1 21, 22), 而 是 (1, x?, 22) 

。 我 们 令 z0 = 1, 21 = 22, z2 = 235 那么 ，h(x) 变 成 : 


h(x) = sign(wWo - zo + Wy «zi + We - 22) = sign(0.6- zo —1-21 — 1:22) = sign (4 z) 


这 种 z 一 Zz 的 转换 可 以 看 成 是 x 空间 的 点 映射 到 z 空 间 中 去 ， 而 在 z 域 中 ， 可 以 用 一 条 直线 进 
v 也 就 是 从 x 空间 的 圆 形 可 分 映射 到 z 空 间 的 线性 可 分 。z 域 中 的 直线 对 应 于 x 域 中 的 圆 

。 因 此 ， 我 们 把 z” > ,这 个 过 程 称 之 为 特征 转换 (Feature Transform) 。 通 过 这 种 特征 
可 以 将 非 线 性 模型 转换 为 男 一 个 域 中 的 线性 模型 。 


* {(Xn, yn)} circular separable 
= {(zn, yn)} linear separable 


exer pm ZEZ: 
(nonlinear) feature 
transform 中 





circular separable in ¥ ==> linear separable in Z 
vice versa? 





已 知 x 域 中 圆 形 可 分 在 z 域 中 是 线性 可 分 的 ， 那 么 反 过 来 ， 如 果 在 z 域 中 线性 可 分 ， 是 否 在 x 域 中 
一 定 是 圆 形 可 分 的 呢 ? 答案 是 否定 的 。 由 于 权重 向 量 w 取 值 不 同 ，x 域 中 的 hypothesis 可 能 是 圆 
形 、 椭 圆 、 双 曲线 等 等 多 种 情况 。 


(Zo, Z1, Z2) = Z = (x) = (1, x2, x2) 


h(x) = A(z) = sign (6 (x) — sign (sio + Wx? + Wax?) 













e (0.6, —1, —1): circle (o inside) 
e (—0.6, -1, 4-1): circle (o outside) 
e (0.6, —1, —2): ellipse 

e (0.6, —1, +2): hyperbola 

e (0.6, --1, -2): constant o :-) 


目前 讨论 的 x 域 中 的 圆 形 都 是 圆心 过 原点 的 ， 对 于 圆心 个 过 原点 的 一 般 情 况 ，zZn 一 2 映射 公 
式 包含 的 所 有 项 为 : 


$5(z) = (1, 21,22, 22, 2122, 22) 


也 就 是 说 ， 对 于 二 次 hypothesis， 它 包含 三次 项 、 一 次 项 和 常数 项 1，z 域 中 每 一 条 线 对 应 x 域 中 
的 某 二 次 曲线 的 分 类 方式 ， 也 许 是 圆 也许 是 椭圆 ， 也 许 是 双 曲 线 等 等 。 那 么 z 域 中 的 
hypothesis 可 以 写成 : 


He, = { h(x): h(x) = fi(@2(x)) for some linear on z} 
—. Nonlinear Transform 


上 一 部 分 我 们 定义 了 什么 了 二 次 hypothesis， 那 么 这 部 分 将 介绍 如 何 设计 一 个 好 的 二 次 
hypothesis 来 达到 良好 的 分 类 效果 。 那 么 目标 就 是 在 z 域 中 设计 一 个 最 佳 的 分 类 线 。 





Z-space X-space 
perceptrons E quadratic hypotheses 
good perceptron E» good quadratic hypothesis 
separating perceptron <= separating quadratic hypothesis 


| 








e want: get good perceptron in Z-space 
e known: get good perceptron in 1’-space with data {(X,, Yn) } 


todo: get good perceptron in Z-space with data ((z; = ®2(Xn), yn)} 


其 实 ， 做 法 很 简单 ， 利 用 映射 变换 的 思想 ， 通 过 映射 关系 ,” 把 x 域 中 的 最 高 阶 二 次 的 多 项 式 转 

换 为 z 域 中 的 一 次 向 量 ， 也 就 是 从 quardratic hypothesis 转 换 成 了 perceptrons 问 题 。 用 z 值 代 蔡 x 
多 项 式 ， 其 中 向 量 z 的 个 数 与 x 域 中 x 多 项 式 的 个 数 一 致 (包含 常数 项 ) 。 这 样 就 可 以 在 z 域 中 利 
用 线性 分 类 模型 进行 分 类 训练 。 训 | 练 好 的 线性 模型 之 后 ， 再 将 z 蔡 换 为 x 的 多 项 式 就 可 以 了 。 具 
体 过 程 如 下 : 





The Nonlinear Transform Steps 





整个 过 程 就 是 通过 映射 关系 ， 换 个 空间 去 做 线性 分 类 重点 包括 两 个 : 

。 特征 转换 

。 训练 线性 模型 
其 实 ， 我 们 以 前 处 理 机 器 学 习 问 题 的 时 候 ， 已 经 做 过 类 似 的 特征 变换 了 。 比 如 数字 识别 问题 ， 
我 们 从 原始 的 像素 值 特征 转换 为 一 些 实际 的 concrete 特 征 ， 比 如 密度 、 对 称 性 等 等 ， 这 也 用 到 


了 feature transform 的 思想 。 
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not new, not just polynomial: 
: domain knowledge - - 
raw (pixels) 一 一 concrete (intensity, symmetry) 


=, Price of Nonlinear Transform 


若 x 特 征 维度 是 d 维 的 ， 也 就 是 包含 d 个 特征 ， 那 么 二 次 多 项 式 个 数 ， 即 z 域 特征 维度 是 : 


dd 十 3 
aom 





d = 1+0} +C7¥4 = 


如 果 x 特 征 维度 是 2 维 的 ， 即 (zl ,2z? ), 那么 它 的 二 次 多 项 式 为 (1, x1, £2, 22, 2122,22), A6 


个 
Io 


现在 ， 如 果 阶 数 更 高 ， 假 设 阶 数 为 Q， 那 么 对 于 x 特 征 维度 是 d 维 的 ， 它 的 z 域 特征 维度 为 : 
d = Co = Ohra = O(Q") 


由 上 式 可 以 看 出 ， 计 算 z 域 特征 维度 个 数 的 时 间 复 杂 度 是 Q 的 d 次 方 ， 随 着 Q 和 d 的 增 大 ， 计 算 量 
会 变 得 很 大 。 同 时 ， 空 间 复杂 度 也 大 。 也 就 是 说 ， 这 种 特征 变换 的 一 个 代价 是 计算 的 时 间 、 空 
间 复 杂 度 都 比较 大 。 





Q-th order polynomial transform: 中 o(X) = ( 





1 + d dimensions 
OUR LR magie 


Wo others 
= # ways of < Q-combination from d kinds with repetitions 


= ($$?) = (C49) = o(a’) 


= efforts needed for computing/storing z = Po(x) and w 


Q large => difficult to compute/store | 


另 一 方面 ，z 域 中 特征 个 数 随 着 Q 和 d 增 加 变 得 很 大 ， 同 时 权重 w 也 会 增 大 ， 即 自由 度 增 加 ，VC 
Dimension 增 大 。 令 z 域 中 的 特征 维度 是 1 十 4 ， 则 在 在 域 中 ， 任 何 d + 2 的 输入 都 不 能 被 
shattered; 同样 ， 在 x 域 中 ， 任 何 d 十 2 的 输入 也 不 能 被 shattered。d 十 1 是 VC Dimension 的 
ER, Wd 十 1 很 大 的 时 候 ， 相 应 的 VC Dimension 就 会 很 大 。 根 据 之 前 章节 课程 的 讨论 ， 


VC Dimension 过 大 ， 模 型 的 泛 化 能 力 会 比较 差 。 


dimensions =.0(Q°) 


e number of free parameters W; = d + 1~ dc (How,) 
e dc(He,) < d + 1, why? 


any d + 2 inputs not shattered in Z 
=> any d + 2 inputs not shattered in X 


Q large 一 > large dvc | 


下 面 通过 一 个 例子 来 解释 为 什么 VC Dimension 过 大 ， 会 造成 不 好 的 分 类 效果 : 








which one do you prefer? :-) 
e ®, ‘visually’ preferred 
* 中 4: Ej(g) = 0 but overkill 





®, (original x) 


© can we make sure that Eout(9) is close enough to Ein(9)? 
© can we make Ein(g) small enough? 


d (Q) 







上 图 中 ， 左 边 是 用 直线 进行 线性 分 类 ， 有 部 分 点 分 类 错误 ; ;右边 是 用 四 次 曲线 进行 非 线 性 分 
类 ， 所 有 点 都 分 类 正确 ， 那 么 哪 一 个 分 类 效果 好 呢 ? 单 从 平面 上 这 些 训练 数据 来 看 ， 四 次 曲线 
的 分 类 效果 更 好 ， 但 是 四 次 曲线 模型 很 容易 带 来 过 拟 合 的 问题 ， 虽 然 它 的 i 比较 小 ， 从 泛 化 
能 力 上 来 说 ， 还 是 左边 的 分 类 器 更 好 一 些 。 也 就 是 说 VC Dimension 过 大 会 带 来 过 拟 合 问题 ， 
d 十 1 不 能 太 大 了 。 

那么 如 何 选择 合适 的 Q， 来 保证 不 会 出 现 过 拟 合 问题 ， 使 模型 的 泛 化 能 力 强 呢 ? 一般 情况 下 ， 
为 了 尽量 减少 特征 自由 度 ， 我 们 会 根据 训练 样本 的 分 布 情况 ， 人 为 地 减少 、 省 略 一 些 项 。 但 
是 ， 这 种 人 为 地 删 减 特征 会 带 来 一 些 * 自 我 分 析 " 代 价 ， 虽 然 对 训练 样本 分 类 效果 好 ， 但 是 对 训 
练 样本 外 的 样本 ， 不 一 定 效果 好 。 所 以 ， 一 般 情况 下 ， 还 是 要 保存 所 有 的 多 项 式 特 征 ， 避 免 对 
训练 样本 的 人 为 选择 。 


Visualize ¥ = R? 
e full 65: Z = (1, x4, X2, X2, X1X2, X2), Ave = 6 
e or z= (1, x2, x), dc = 3, after visualizing? 
* or better z = (1, x? + x2) , dvc = 2? 
e or even better z = (sign(0.6 — x? — x2))? 
—careful about your brain's ‘model complexity’ 





for VC-safety, ® shall be 
decided without ‘peeking’ data | 





四 、Structured Hypothesis Sets 


下 面 ， 我 们 讨论 一 下 从 x 域 到 z 域 的 多 项 式 变 换 。 首 先 ， 如 果 特 征 维度 只 有 1 维 的 话 ， 那 么 变 
多 项 式 只 有 常数 项 : 


®o (x) = (1) 

如 果 特 征 维 度 是 两 维 的 ， 变 换 多 项 式 包含 了 一 维 的 ®0 (x): 

(x) = (@o(x), 21, 22,..., 2a) 
如 果 特 征 维度 是 三 维 的 ， 变 换 多 项 式 包 含 了 二 维 的 更 1 (z) : 

Sig) = (Pi (2) ti fies ee) 
以 此 类 推 ， 如 果 特 征 维度 是 Q 次 ， 那 么 它 的 变换 多 项 式 为 : 

q(x) = (Bo-_1(2), mp mp m2. wg) 

那么 对 于 不 同 阶 次 构成 的 hypothesis 有 如 下 关系 : 

He, C Ha, C Ha, C --- C Ha, 


我 们 把 这 种 结构 叫做 Structured Hypothesis Sets: 


He, C He, C He, = He, Ca eee c He, 


| | I | | 
Ho Hı He H3 thi Ho 





那么 对 于 这 种 Structured Hypothesis Sets， 它 们 的 VC Dimension 满 足下 列 关系 : 
dyc(Ho) € dve(Hi) € dve(H2) < --- € dvc(Ho) 
它 的 in 满足 下 列 关系 : 


Ein(90) > Ein(g1) > Ein(g2) > +--+ > Bin (go) 





Go D Hi ) H2 H3 


Let g; = argmin,c;,, Ein(ħ): 


Ho C Hı c Ho E H3 
dvc (Ho) < Ac (?t4 ) < Ac (Hz) < dyc(?13) 
En(go >  Ew(g)) >  Ew(g) = Ein(gs) 


VIAN 















out-of-sample error 


model complexity 


Error 


use H1126 won't be good! :-( 


in-sample error 


dyc VC dimension, dy. 


从 上 图 中 也 可 以 看 到 ， 随 着 变换 多 项 式 的 阶 数 增 大 ， 虽 然 思 ;逐渐 减 小 ， 但 是 model 
complexity 会 逐渐 增 大 ， 造 成 轧 jt 很 大 ， 所 以 阶 数 不 能 大 高 。 


那么 ， 如 果 选 择 的 阶 数 很 大 ， 确 实 能 使 Bij 接近 于 0， 但 是 泛 化 能 力 通常 很 差 ， 我们 把 这 种 情况 
叫做 tempting sin。 所 以 ,一 般 最 合适 的 做 法 是 先 从 低 阶 开始 ， 如 先 选择 一 阶 hypothesis， 看 看 
Ein 是 否 很 小 ， 如 果 Bin 足 够 小 的 话 就 选择 一 阶 ， 如果 Bin, 大 的 话 ， 再 逐渐 增加 阶 数 ， 直 到 | 满 
足 要 求 为 止 。 也 就 是 说 ， 尽 量 选择 低 阶 的 hypothes， 这 样 才能 得 到 较 强 的 泛 化 能 力 。 


e tempting sin: use H1126, low Ein(g1126) to fool your boss 
—really? :-( a dangerous path of no return 
e safe route: 71, first 


e if Ej (g1) good enough, live happily thereafter :-) 
e otherwise, move right of the curve 
with nothing lost except ‘wasted’ computation 


linear model first: 
simple, efficient, safe, and workable! | 
B. BS 


这 节 课 主要 介绍 了 非 线性 分 类 模型 ， 通 过 非 线性 变换 ， 将 非 线性 模型 映射 到 另 一 个 空间 ， 转 换 
为 线性 模型 ， 再 来 进行 线性 分 类 。 本 节 课 完整 介绍 了 非 线性 变换 的 整体 流程 ， 以 及 非 线性 变 # 加 








可 能 会 带 来 的 一 些 问 题 : 时 间 复 杂 度 和 空间 复杂 度 的 增加 。 最 后 介绍 了 在 要 付出 代价 的 情况 
下 ， 使 用 非 线 性 变换 的 最 安全 的 做 法 ， 尽 可 能 使 用 简单 的 模型 ， 而 不 是 模型 越 复杂 越 好 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《 机 器 学 习 基石 》 课 程 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔 记 13 -- Hazard of 
Overfitting 


VES: 红色 石头 公众 号 : Al 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 非 线性 分 类 模型 ， 通 过 非 线性 变换 ， 将 非 线性 模型 映射 到 另 一 
个 空间 ， 转 换 为 线性 模型 ， 再 来 进行 分 类 ， 分 析 了 非 线性 变换 可 能 会 使 计算 复杂 度 增 
加 。 本 节 课 介绍 这 种 模型 复杂 度 增加 带 来 机 器 学 习 中 一 个 很 重要 的 问题 : 过 拟 合 
(overfitting) 。 


一 、What is Overfitting? 


首先 ， 我 们 通过 一 个 例子 来 介绍 什么 bad generalization. 假设 平面 上 有 5 个 点 ， 目 标 
国 数 f(x) 是 2 阶 多 项 式 ， 如 果 hypothesis 是 二 阶 多 项 式 加 上 一 些小 的 noise 的 话 ， 那 么 这 
5 个 点 很 靠近 这 个 hypothesis，Bin, 很 小 。 如 果 hypothesis 是 4 阶 多 项 式 ， 那 么 这 5 点 会 
完全 落 在 hypothesis 上 ， 丈 in = 0。 虽 然 4 阶 hypothesis 的 Bin, 上 Lb2 阶 hypothesis 的 要 好 
很 多 ， 但 是 它 的 jw 很 大 。 因 为 根据 VC Bound 理 论 ， 阶 数 越 大 ， 即 VC Dimension 越 
大 ， 就 会 让 模型 复杂 度 更 高 ，bBovij 更 大 。 我 们 把 这 种 忆 i 很 小 ，Bowt 很 大 的 情况 称 之 
为 bad generation， 即 泛 化 能 力 差 。 


regression for x € R with N = 5 
examples 


target f(x) = 2nd order polynomial 
label yn = f(Xn) + very small noise 


linear regression in Z-space + 

中 = 4th order polynomial 

unique solution passing all examples 
= En(g) =0 

Eour(g) huge 








bad generalization: low Ein, high Eout J 


我 们 回 过 头 来 看 一 下 VC 曲线 : 











out-of-sample error 


model complexity 


Error 


in-sample error 


^ 7C dimension 
E VC dimension, dye 


hypothesis 的 阶 数 越 高 ， 表 示 VC Dimension 越 大 。 随 着 VC Dimension £X, Eine 
直 减 小 的 ， 而 owi 先 减 小 后 增 大 。 在 d“ 位 置 ，bowi 取得 最 小 值 。 在 dj AU, BA 
VC Dimension 越 来 越 大 ，in, 越 来 越 小 ， 接 近 于 0，owt 越 来 越 大 。 即 当 VC 
Dimension 很 大 的 时 候 ， 这 种 对 训练 样本 拟 合 过 分 好 的 情况 称 之 为 过 拟 合 

(overfitting) 。 另 一 方面 ， 在 dyw 左 人 出 ， 随 着 VC Dimension 越 来 越 小 ，Ein, 和 Eovt 
都 越 来 越 大 ， 这 种 情况 称 之 为 估 拟 合 (underfitting) ,~ 即 模型 对 训练 样本 的 拟 合 度 大 
差 ，VC Dimension 太 小 了 。 


e take dyc — 1126 for learning: 

bad generalization 

—(Eout q Ein) large 

switch from dyc = dy; to ac = 1126: 

overfitting 

—Ein 小 Eout T 

e switch from Ac = dy; to Ac = 1: 
underfitting 
—EFh 十 Eout ij 


bad generation 和 overfitting 的 关系 可 以 理解 为 : overfitting 是 VC Dimension 过 大 的 一 
个 过 程 ，bad generation 是 overfitting 的 结果 。 


bad generalization: low Ein, high Eout; 
overfitting: lower Ein, higher Eout Egan 





Nght, Fin Low BR), REL pies; 而 对 overfitting 来 说 ， 
Ein ~ 0, BEES RA. BBA, overfittingh RAAB ABLE? 


我 们 举 个 开车 的 例子 ， 把 发 生 车 祸 比 作成 overfitting， 那 么 造成 车 祸 的 原因 包括 : 


。 车 速 太 快 (VC Dimension 太 大 ) ; 
。 JERRIRIK (noise) ; 
。 对 路 况 的 了 解 程度 〈 训 练 样本 数量 N 不 够 ) ; 


也 就 是 说 ，VC Dimension、noise、N 这 三 个 因素 是 影响 过 拟 合 现象 的 关键 。 








‘good fit’ m overfit 
learning driving 
overfit commit a car accident 
use excessive dyc ‘drive too fast’ 
noise bumpy road 


limited data size N.| limited observations about road condition 


—. The Role of Noise and Data Size 


为 了 尽 可 能 详细 地 解释 overfitting， 我 们 进行 这 样 一 个 实验 ， 试 验 中 的 数据 集 不 是 很 
大 。 首 先 ， 在 二 维 平面 上 ， 一 个 模型 的 分 布 由 目标 函数 f(x) (x 的 10 阶 多 项 式 ) 加 上 一 
些 noise 构 成 ， 下 图 中 ， 离 散 的 圆圈 是 数据 集 ， 目 标 函 数 是 蓝 色 的 曲线 。 数 据 没 有 完全 
落 在 曲线 上 ， 是 因为 加 入 了 noise。 





10-th order target function 





然后 ， 同 样 在 二 维 平面 上 ， 另 一 个 模型 的 分 布 由 目标 函数 f(x)，(x 的 50 阶 多 项 式 ) 构 
成 ， 没 有 加 入 noise。 下 图 中 ， 离 散 的 圆圈 是 数据 集 ， 目 标 羡 数 是 蓝 色 的 曲线 。 可 以 看 
出 由 于 没有 noise， 数 据 集 完 全 落 在 曲线 上 。 


50-th order target function 





现在 ， 有 两 个 学 习 模型 ， 一 个 是 2 阶 多 项 式 ， 另 一 个 是 10 阶 多 项 式 ， 分 别 对 上 面 两 个 
问题 进行 建 模 。 首 先 ， 对 于 第 一 个 目标 函数 是 10 阶 多 项 式 包含 noise 的 问题 ， 这 两 个 学 
习 模型 的 效果 如 下 图 所 示 : 








10-th order target function 


o 








o 






O Data 
— 2nd Order Fit 
— 10th Order Fit 


r 


go € He Jio € Hio 
En 0.050 0.034 
| 0.127 9.00 


由 上 图 可 知 ， 2 阶 多 项 式 的 学 习 模 型 B;,, 一 0.050, TE oui yy 0.127; 10 阶 多 项 式 的 学 
JRH Ein = 0.034, How = 9.00。 虽 然 10 阶 模型 的 Bi 上 比 2 阶 的 小 ， 但 是 其 Bo 
要 比 2 阶 的 大 得 多 ， 而 2 阶 的 Bin, 和 Eowt 相 差 不 大 ， 很 明显 用 10 阶 的 模型 友 生 了 过 拟 


xa 
Fo 


然后 ， 对 于 第 二 个 目标 国 数 是 50 阶 多 项 式 没 有 noise 的 问题 ， 这 两 个 学 习 模型 的 效果 如 
下 图 所 示 : 


50-th order target function 





© Data 
— 2nd Order Fit 
—10th Order Fit 


T 


go € H2 gio E Hio 
E, | 0.029 0.00001 
Es | 0.120 7680 


由 上 图 可 知 ，2 阶 多 项 式 的 学 习 模型 i;n, = 0.029, Bou = 0.120; 10 阶 多 项 式 的 学 
JRE Ein = 0.00001, Eost = 7680. 虽然 10 阶 模型 的 ;i, 比 2 阶 的 小 ， 但 是 其 RS 





发 生 了 明显 的 过 拟 合 。 

上 面 两 个 问题 中 ，10 阶 模型 都 发 生 了 过 拟 合 ， 反 而 2 阶 的 模型 却 表 现 得 相对 不 错 。 这 

好 像 违背 了 我 们 的 第 一 感觉 ， 比 如 对 于 目标 函数 是 10 阶 多 项 式 ， 加 上 noise 的 模型 ， 按 
道理 来 说 应 该 是 10 阶 的 模型 更 能 接近 于 目标 函数 ， 因 为 它们 阶 数 相同 。 但 是 ， 事 实 却 
是 2 阶 模型 泛 化 能 力 更 强 。 这 种 现象 产生 的 原因 ， 从 哲学 上 来 说 ， 就 是 “以 退 为 进 。 有 
时 候 ， 简 单 的 学 习 模 型 反而 能 表现 的 更 好 。 

“Fifi learning curve 来 分 析 一 下 具体 的 原因 ，learning curvef& Bis Ein $15; HE 

着 数据 量 N 的 变化 趋势 。 下 图 中 左边 是 2 阶 学 习 模 型 的 learning curve， 右 边 是 10 阶 学 

习 模 型 的 learning curve。 


Eout 


Fin 





Expected Error 
Expected Error 


Ein 
Number of Data Points, N 





Number of Data Points, NV 


e Hio: lower Eout when N — oc, 
but much Jarger generalization error for small N 


e |gray area : O overfits! (Ei, |, E; 1) 


我 们 的 第 9 次 课 的 笔记 NTU 林 轩 田 机 器 学 习 基 石 课程 学 习 笔 记 9 -- Linear Regression 
已 经 介绍 过 了 learning curve。 在 learning curve 中 ， 横 轴 是 样本 数量 N ， 纵 轴 是 Error。 
Ein FE out 可 表示 为 
d+1 
E;n = noiselevel x (1 — 一 一 一 
noiselevel x ( N ) 


d+1 
Eout = noiselevel x (1 + —) 


其 中 d 为 模型 阶 次 ， 左 图 中 d=2， 右 图 中 d=10。 


本 节 的 实验 问题 中 ， 数 据 量 N 不 大 ， 即 对 应 于 上 图 中 的 灰色 区 域 。 左 图 的 灰色 区 域 
中 ， 因 为 d=2，Ein 和 owt 相 对 来 说 比较 接近 ; 右 图 中 的 灰色 区 域 中 ，d=10， 根 据 





Bn 和 out 的 表达 式 ，bBin 很 小 ， 而 Bowt 很 大 。 这 就 解释 了 之 前 2 阶 多 项 式 模型 的 Bi; 
更 接近 ow:， 泛 化 能 力 更 好 。 


值得 一 提 的 是 ， 如 果 数 据 量 N 很 大 的 时 人 息 ， 上 面 两 图 中 i, 和 owt 都 比较 接近 ,但 是 
对 于 高 阶 模型 ，z 域 中 的 特征 很 多 的 时 候 ， 需 要 的 样本 数量 N 很 大 ， 且 容易 发 生 维 度 灾 
难 。 关 于 维度 灾难 的 详细 生动 解释 ， 请 参考 我 男 一 篇 博文 : 


机 器 学 习 中 的 维度 灾难 


男 一 个 例子 中 ， 目 标 消 数 是 50 阶 多 项 式 ， 且 没有 加 入 noise。 这 种 情况 下 ， 我 们 发 现 仍 
然 是 2 阶 的 模型 拟 合 的 效果 更 好 一 些 ， 明 明 没 有 noise， 为 什么 是 这 样 的 结果 呢 ? 


实际 上 ， 我 们 忽略 了 一 个 问题 : 这 种 情况 真 的 没有 noise 吗 ”其 实 ， 当 模型 很 复杂 的 时 
候 ， 即 50 阶 多 项 式 的 目标 函数 ， 无 论 是 2 阶 模型 还 是 10 阶 模型 ， 都 不 能 学 习 的 很 好 ， 
这 种 复杂 度 本 身 就 会 引入 一 种 "noise'。 所 以 ， 这 种 高 阶 无 noise 的 问题 ， 也 可 以 类 似 于 
10 阶 多 项 式 的 目标 函数 加 上 noise 的 情况 ， 只 是 二 者 的 noise 有 些许 不 同 ， 下 面 一 部 分 
将 会 详细 解释 。 

=, Deterministic Noise 

下 面 我 们 介绍 一 个 更 细节 的 实验 来 说 明 什么 时 候 小 心 overfit 会 发 生 。 假 设 我 们 产生 的 
数据 分 布 由 两 部 分 组 成 : 第 一 部 分 是 目标 逊 数 f(x)，Q y 阶 多 项 式 ; 第 二 部 分 是 噪声 e， 


服从 Gaussian 分 布 。 接 下 来 我 们 分 析 的 是 noise 强 度 不 同 对 overfitting 有 什么 样 的 影 
W), FANS EN 


y = f(x)+e 
Q; 
~ Gaussian( X- aqgX9， 2 
q—0 


f(x) 





e Gaussian iid noise e with level c? 


e some ‘uniform’ distribution on f(x) 
with complexity level Q; 


e data size N 





Ee Lis 结果 如 下 : 
impact of o* versus N 


2 
1 
0 2 


RO 100 120 
Number of Data Points, N 


fixed Q, — 20 


impact of Q, versus N 


> 


umes of Data Points, N 
fixed o? = 0.1 


Noise Level, c? 
Lago ur ur d QQ 





上 图 中 ， 红 色 越 深 ， 代 表 overfit 程 度 越 高 ， 蓝 色 越 深 ， 代 表 overfit 程 度 越 低 。 先 看 左边 
的 图 ， 左 图 中 阶 数 Qf 国定 为 20， 横 坐标 代表 样本 数量 N》 纵 坐标 代表 噪声 水 平 0?。 
红色 区 域 集中 在 N 很 小 或 者 o? 很 大 的 时 候 ， 也 就 是 说 N 越 大 ，o? 越 小 ， 越 不 容易 发 生 
overfit。 右 边 图 中 o? = 0.1， 横 坐标 代表 样本 数量 N， 纵 坐标 代表 目标 函数 阶 数 Q y。 
红色 区 域 集 中 在 N 很 小 或 者 Q ;很 大 的 时 候 》 也 就 是 说 N 越 大 ，Q / 越 小 ， 越 不 容易 发 生 
overfit。 上 面 两 图 基本 相似 。 

从 上 面 的 分 析 ， 我 们 发 现 o? 对 overfit 是 有 很 大 的 影响 的 ， 我 们 把 这 种 noise 称 之 为 
stochastic noise。 同 样 地 ，Q@4 即 模型 复杂 度 也 对 overfit 有 很 大 影响 ， 而 且 二 者 影响 是 


相似 的 ， 所 以 我 们 把 这 种 称 之 为 deterministic noise。 之 所 以 把 它 称 为 noise， 是 因为 
模型 高 复杂 度 带 来 的 影响 。 


总 结 一 下 ， 有 四 个 因素 会 导致 发 生 overfitting:: 


。 data size N | 
e stochastic noise c? 个 
e deterministic noise Q; T 


e excessive power T 


我 们 刚才 解释 了 如 果 目 标 函 数 f(x) 的 复杂 度 很 高 的 时 候 ， 那 么 跟 有 noise 也 没有 什么 两 
样 。 因 为 目标 消 数 很 复杂 ， 那 么 再 好 的 hypothesis 都 会 跟 它 有 一 些 差距 ,我 们 把 这 种 
差距 称 之 为 deterministic noise, deterministic noise 与 stochastic noise 不 同 ， 但 是 效 
果 一 样 。 其 实 deterministic noise 类 似 于 一 个 伪 随 机 数 发 生 器 ， 它 不 会 产生 真正 的 随机 
数 ， 而 只 产生 伪 随 机 数 。 它 的 值 与 hypothesis 有 关 ， 且 国定 点 x 的 deterministic noisef I 





是 固定 的 。 
四 、Dealing with Overfitting 


现在 我 们 知道 了 什么 是 overfitting， 和 overfitting 产 生 的 原因 ， 那 么 如 何 避免 overfitting 
呢 ? 避 免 overfitting 的 方法 主要 包括 : 

e start from simple model 

e data cleaning/pruning 

e data hinting 

e regularization 


e validataion 


这 几 种 方法 类 比 于 之 前 举 的 开车 的 例子 ， 对 应 如 下 : 





learning driving 
overfit commit a car accident 
use excessive dyc ‘drive too fast’ 
noise bumpy road 
limited data size N limited observations about road condition 
start from simple model drive slowly 
data cleaning/pruning use more accurate road information 
data hinting exploit more road information 
regularization put the brakes 
validation monitor the dashboard 





regularization 和 validation 我 们 之 后 的 课程 再 介绍 ， 本 节 课 主要 介绍 简单 的 data 
cleaning/pruning 和 data hinting 两 种 方法 。 


data cleaning/pruning 就 是 对 训练 数据 集 里 label 明 显 错误 的 样本 进行 修正 (data 
cleaning) ， 或 者 对 错误 的 样本 看 成 是 noise， 进 行 剔除 (data pruning) 。data 
cleaning/pruning 关 键 在 于 如 何 准 确 寻 找 label 错 误 的 点 或 者 是 noise 的 点 ， 而 且 如 果 这 
些 点 相 比 训练 样本 N 很 小 的 话 ， 这 种 处 理 效果 不 太 明 显 。 


data hinting 是 针对 N 不 够 大 的 情况 ， 如 果 没 有 办 法 获得 更 多 的 训练 集 ， 那 么 data 
hinting 就 可 以 对 已 知 的 样本 进行 简单 的 处 理 、 变 换 ， 从 而 获得 更 多 的 样本 。 举 个 例 
子 ， 数 字 分 类 问题 ， 可 以 对 已 知 的 数字 图 片 进行 轻微 的 平移 或 者 旋转 ， 从 而 让 N 丰 富 


起 来 ， 达 到 扩大 训练 集 的 目的 。 这 种 额外 获得 的 例子 称 之 为 virtual examples, (BEES pi 





注意 一 点 的 就 是 ， 新 获取 的 virtual examples 可 能 不 再 是 iid 某 个 distribution。 所 以 新 构 
建 的 virtual examples 要 尽量 合理 ， 且 是 独立 同 分 布 的 。 


h. & mz 


AD WRZESEf MB f overittingh S, PS Fini, Eou 很 大 的 时 候 ， 会 出 现 
overfitting。 详 细 介 绍 了 overfitting 发 生 的 四 个 常见 原因 data size N, stochastic 
noise, deterministic noise 和 excessive power。 解 决 overfitting 的 方法 有 很 多 ， 本 节 课 
主要 介绍 了 data cleaning/pruning 和 data hinting 两 种 简单 的 方法 ， 之 后 的 课程 将 会 详 
细 介 绍 regularization 和 validataion 两 种 更 重要 的 方法 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 





林 轩 田 《 栅 器 学 习 基 石 》 课 程 笔记 14 -- Regularization 


作者 : 红色 石头 ”公众 号 : AI 有 道 (id: redstonewill) 


上 节 课 我 们 介绍 了 过 拟 合 发 生 的 原因 : excessive power, stochastic/deterministic 
noise 和 limited data。 并 介绍 了 解决 overfitting 的 简单 方法 。 本 节 课 ， 我 们 将 介绍 解决 
overfitting 的 另 一 种 非常 重要 的 方法 : Regularization 规 则 化 。 


一 、Regularized Hypothesis Set 
先 来 看 一 个 典型 的 overfitting 的 例子 : 





O Data 
— Target 
Fit 


overfit 


如 图 所 示 ， 在 数据 量 不 够 大 的 情况 下 ， 如 果 我 们 使 用 一 个 高 阶 多 项 式 (图 中 红色 曲线 
所 示 ) ， 例 如 10 阶 ， 对 目标 函数 (AEH) 进行 拟 合 。 拟 合 曲线 波动 很 大 ， 虽 然 
Bn 很 小 ， 但 是 上 owt 很 大 ， 也 就 造成 了 过 拟 合 现 象 。 


那么 如 何 对 过 拟 合 现象 进行 修正 ， 使 hypothesis 更 接近 于 target function 呢 ?一 种 方法 
就 是 regularized fit。 





T 


'regularized fit' 


这 种 方法 得 到 的 红色 fi 曲线， 要 比 overfit 的 红色 曲线 平滑 很 多 ， 更 接近 与 目标 函数 ， 它 
的 阶 数 要 更 低 一 些 。 那 么 问题 就 变 成 了 我 们 要 把 高 阶 (1081) 的 hypothesis sets 转 换 
为 低 阶 (2 阶 ) 的 hypothesis sets。 通 过 下 图 我 们 发 现 ， 不 同 阶 数 的 hypothesis 存 在 如 
下 包含 天 系 : 


e idea: ‘step back’ from 7119 to H2 
Go D 94 ) He ) Hs 


e name history: function approximation for i!!-posed problems 


我 们 发 现 10 阶 多 项 式 hypothesis -sets 里 包含 了 2 阶 多 项 式 hypothesis sets 的 所 有 项 ， 那 
么 在 万 10 中 加 入 一 些 限定 条 件 ， 使 它 近 似 为 瓦 ? 即 可 。 这 种 函数 近似 曾 被 称 之 为 不 适 定 
问题 (ill-posed problem) 。 


如 何 从 10 阶 转换 为 2 阶 呢 ? Et, Ho WRN: 


Hio = wo + w£ + wr? + wr? +--+ wir? 
To. Hon]: 
Ay = wo + wiz + wr? 
所 以 ， 如 果 限 定 条 件 是 ws = w =- = wo = 0, SBASUS Hs = Hio. Bete 





说 ， 对 于 高 阶 的 hypothesis， 为 了 防止 过 拟 合 ， 我 们 可 以 将 其 高 阶 部 分 的 权重 w 限 制 为 
0， 这 样 ， 就 相当 于 从 高 阶 的 形式 转换 为 低 阶 ， 供 波形 更 加 平滑 ， 不 容易 发 生 过 拟 合 。 





Q-th order polynomial transform for x € R: 


éd = 11 wx) 





+ linear regression, denote w by w 


10 


hypothesis w in Hjo: Wo + WX + WoX? + w4X? + ... + W49X 


hypothesis w in H2: Wo + mX + Wax? 





that is, H2 = ?149 AND ‘constraint that wa = w=... 


step back = constraint | 


那 有 一 个 问题 ， 令 豆 10 高 阶 权 重 w 为 0， 为 什么 不 直接 使 用 妃 ? 呢 ?这样 做 的 目的 是 拓 
展 我 们 的 视野 ， 为 即将 讨论 的 问题 做 准备 。 刚 刚 | 我 们 讨论 的 限制 是 豆 1o 高 阶 部 分 的 权 
重 w 限 制 为 0%， 这 是 比较 苛刻 的 一 种 限制 。 下 面 ， 我 们 把 这 个 限制 条 件 变 得 更 宽松 一 
点 ， 即 令 任 意 8 个 权重 w 为 0， 并 不 非 要 限定 ws =w 一 … = wo — 0， 这 个 
Looser Constraint 可 以 写成 : 

10 


X (w, #0) <3 

q=0 
也 就 只 是 限定 了 w 不 为 0 的 个 数 ” FMREVMESTHW. ixFhhypothesisig73.H? , 
称 为 sparse hypothesis set, E45 AoF0 A ip AKAN: 


Hy C H; C Hio 
e more flexible than Ho: H2 C H5 
* less risky than Ho: H3 C Hio 


Looser Constraint 对 应 的 hypothesis 应 该 更 好 解 一 些 ， 但 事实 是 sparse hypothesis set 
于 9 被 证 明 也 是 NP-hard， 求 解 非常 困难 。 所 以 ， 还 要 转换 为 另 一 种 易于 求解 的 限定 条 
件 。 


那么 ， 我 们 寻找 一 种 更 容易 求解 的 宽松 的 限定 条 件 Softer Constraint, BD: 





其 中 ，C 是 常数 ， 也 就 是 说 ， 所 有 的 权重 w 的 平方 和 的 大 小 不 超过 C， 我 们 把 这 种 
hypothesis sets 记 为 H(C)。 


于 ;与 (CO) 的 关系 是 ， 它 们 之 间 有 重 攻 ， 有 交集 的 部 分 ， 但 是 没有 完全 包含 的 关系 ， 
也 不 一 定 相等 。 对 应 瓦 (C) ，C 值 越 大 ， 限 定 的 范围 越 大 ， 即 越 宽 松 : 


H(0) c H(1.126) C --- C H(1126) C --- c H(oo) = Hio 


当 C 无 限 大 的 时 候 ， 即 限定 条 件 非 常 宽 松 ， 相 当 于 没有 加 上 任何 限制 ， 就 与 五 10 没 有 
什么 两 样 。 巨 (C) 称 为 regularized hypothesis set， 这 种 形式 的 限定 条 件 是 可 以 进行 求 
解 的 ， 我 们 把 求解 的 满足 限定 条 件 的 权重 w 记 为 wRgG。 接 下 来 就 要 探讨 如 何 求解 


WREG o 


—,. Weight Decay Regularization 
现在 ， 针 对 H(c)， 即 加 上 限定 条 件 ， 我 们 的 问题 变 成 : 
1AN 
erin, En) = y Dien — Yo) 
(Zw—y)! (Zw—y) 


Q 
s.t. DAN w: <C 
q= 
w^w 


PTW SNES E;n (w) 的 最 小 值 ， 限 定 条 件 是 ||w?|| € C。 这 个 限定 条 件 从 几何 
角度 上 的 意思 是 ， 权 重 w 被 限定 在 半径 为 VC 的 圆 内 ， 而 球 外 的 w 都 不 符合 要 求 ， 即 便 
CERE E; (w) 梯 度 为 零 的 w。 


min En(w) = Tzw — y)" (Zw - y) s.t. ww < C 


WE 及 Q+1 


下 面 用 一 张 图 来 解释 在 限定 条 件 下 ， 最 小 化 Bin, (w) 的 过 程 : 





decreasing direction: -VEn(w)， Ein = ope. 
remember? :-) 

normal vector of w^w = C: w 

if — V Ej (w) and w not parallel: can 
decrease Ej, (w) without violating 
the constraint 


at optimal solution Wrec, 


—VEin(Wrec) x 








如 上 图 所 示 ， 假 设 在 空间 中 的 一 点 w， 根 据 梯度 下 降 算 法 ，w 会 朝 着 一 V i, 的 方向 移 
动 (图 中 蓝 色 箭头 指示 的 方向 ) ， 在 没有 限定 条 件 的 情况 下 ，w 最 终 会 取得 最 小 值 
win， 即 “谷底 "的 位 置 。 现 在 ， 加 上 限定 条 件 ， 即 w 被 限定 在 半径 为 VC 的 圆 内 ，w 距 
离 原 点 的 距离 不 能 超过 圆 的 半径 ， 球 如 图 中 红色 圆圈 所 示 wzZw 二 C。 那 么 ， 这 种 情 
况 下 ，w 不 能 到 达 2wiin 的 位 置 ， 最 大 只 能 位 于 圆 上 ， 沿 着 圆 的 切线 方向 移动 (图 中 绿 
色 箭 头 指示 的 方向 ) 。 与 绿色 向 量 垂直 的 向 量 (图 中 红色 箭头 指示 的 方向 ) 是 圆 切 线 
的 法 向 量 ， 即 w 的 方向 ，w 不 能 靠近 红色 箭头 方向 移动 ; 那么 随 着 迭代 优化 过 程 ， 只 要 
-V Bin 与 Ww 点 切线 方向 不 垂直 ， 那 么 根据 向 量 知识 ， 一 V Bi 一定 在 w 点 切线 方向 上 
有 不 为 零 的 分 量 ， 即 w 点 会 继续 移动 。 只 有 当 一 Vi 与 绿色 切线 垂直 ， 即 与 红色 法 向 
量 平行 的 时 候 ， 一 yin 在 切线 方向 上 没有 不 为 零 的 分 量 了 ， 也 就 表示 这 时 w 达 到 了 最 
优 解 的 位 置 。 
有 了 这 个 平行 的 概念 ， 我 们 就 得 到 了 获得 最 优 解 需 要 满足 的 性 质 : 

V Ein (WREG ) 十 — —0 


上 面 公式 中 的 入 称 为 Lagrange multiplier， 是 用 来 解 有 条 件 的 最 佳 化 问题 常用 的 数学 工 
具 ， 亦 是 方便 后 面 公式 推导 。 那 么 我 们 的 目标 就 变 成 了 求解 满足 上 面 公式 的 wRgG。 


之 前 我 们 推导 过 ， 线 性 回归 的 ;的 表达 式 为 : 


计算 Bj, 梯度 ， 并 代入 到 平行 条 件 中 ， 得 到 : 
2 2X 
NE Zwnzc -Z y) q REG = 0 


这 是 一 个 线性 方程 式 ， 直 接 得 到 wRgG 为 : 





WREG = (ZT Z + AI) ! Zt y 


上 式 中 包含 了 求 首 矩阵 的 过 程 ， 因 为 GT GZ 是 半 正 定 和 矩阵 ， 如 果 和 大 于 零 ， 那 么 
ZT Z 十 AT 一 定 是 正定 矩阵 ， 即 一 定 可 逆 。 另 外 提 一 下 ， 统 计 学 上 把 这 叫做 ridge 
regression， 可 以 看 成 是 linear regression 的 进 阶 版 。 


如 果 对 于 更 一 般 的 情况 ， 例 如 逻辑 回归 问题 中 ，V 五 im, 不 是 线性 的 ， 那 么 将 其 代入 平 
行 条 件 中 得 到 的 就 不 是 一 个 线性 方程 式 ，wRgG 不 易 求 解 。 下 面 我 们 从 另 一 个 角度 来 
看 一 下 平行 等 式 : 


2A 
V Ej, (WREG) 十 Ww VREG = 0 


已 知 V Bin 是 in 对 wREG 的 导数 , M4 wre CIERRE w? o AF. BA 
平行 等 式 左边 可 以 看 成 一 个 国 数 的 导数 ， 导 数 为 零 ， 即 求 该 国 数 的 最 小 值 。 也 就 是 
说 ， 问 题 转 换 为 最 小 化 该 函数 : 
入 

Eug (w) = E; (w) 十 yew 
该 国 数 中 第 二 项 就 是 限定 条 件 regularizer， 也 称 为 weight-decay regularization, Fei] 
把 这 个 函数 称 为 Augmented Error, BD Eaug(w). 
如 果 入 不 为 零 ， 对 应 于 加 上 了 限定 条 件 , “ 若 和 等于零， 则 对 应 于 没有 任何 限定 条 件 ， 问 
题 转换 成 之 前 的 最 小 化 Bin (w). 


下 面 给 出 一 个 曲线 拟 合 的 例子 ,< 入 取 不 同 的 值 时 ， 得 到 的 曲线 也 不 相同 : 





A = 0.0001 A= 0.01 A=1 
overfitting => ==> ==> underfitting 
philosophy: a /ittle regularization goes a long way! | 





从 图 中 可 以 看 出 ， 当 和 = 0 时 ,发 生 了 过 拟 合 ; 当 和 = 0.0001 时 ， 拟 合 的 效果 很 

好 ; 4A = 0.01 和 和 = 1 时 ,发 生 了 欠 拟 合 。 我 们 可 以 把 A 看 成 是 一 种 penality， 即 对 
hypothesis 复 杂 度 的 惩罚 ，》 越 大 ，w 就 越 小 ， 对 应 于 C 值 越 小 ， 即 这 种 徙 罚 越 大 ， 拟 messa 
合 曲 线 就 会 越 平滑 ， 高 阶 项 就 会 削弱 ， 容 易 发 生 欠 拟 合 。 和 一 般 取 比较 小 的 值 就 能 达 E m 





到 良好 的 拟 合 效果 ， 过 大 过 小 都 有 问题 ， 但 究竟 取 什 么 值 ， 要 根据 具体 训练 数据 和 模 
型 进行 分 析 与 调试 。 


call '-- gw! w' weight-decay regularization: 


larger \ 
<=> prefer shorter w 
<=> effectively smaller C 


—go with ‘any’ transform + linear model 





事实 上 ， 这 种 regularization 不 仅 可 以 用 在 多 项 式 的 hypothesis 中 ， 还 可 以 应 用 在 
logistic regression 等 其 他 hypothesis 中 ， 都 可 以 达到 防止 过 拟 合 的 效果 。 


我 们 目前 讨论 的 多 项 式 是 形 如 z, z^, 2?,--- , x” 的 形式 ， 若 x 的 范围 限定 在 [-1,1] 之 
间 ， 那 么 可 能 导致 x” 相对 于 低 阶 的 值 要 小 得 多 ， 则 其 对 于 的 Ww 非常 大 ， 相 当 于 要 给 高 
阶 项 设置 很 大 的 惩罚 。 为 了 避免 出 现 这 种 数据 大 小 差别 很 大 的 情况 ， 可 以 使 用 
Legendre Polynomials{t#a, x7, x’, -- , x" 这 种 形式 ，Legendre Polynomials 各 项 
之 间 是 正 交 的 ， 用 它 进行 多 项 式 拟 合 的 效果 更 好 。 关 于 Legendre Polynomials 的 概念 


这 里 不 详细 介绍 ， 有 兴趣 的 童鞋 可 以 看 一 不 维基 百科 。 
=, Regularization and VC Theory 


下 面 我 们 研究 一 下 Regularization 与 VC 理论 之 间 的 关系 。Augmented Error 表 达 式 如 
下 : 


VC Bound 表 示 为 : 
Eout (w) < Ein (w) T Q(H) 


其 中 ww 表示 的 是 单个 hypothesis 的 复杂 度 ， 记 为 Qf(w); 而 (五 ) 表 示 整 个 
hypothesis set 的 复杂 度 。 根 据 Augmented Error 和 VC Bound 的 表达 式 ，Q2(w) 包 含 于 
Q(H)zP3, PALA, Eoug(w) bb Ein BEF Eou, EARL out, Eaug(w)S 
五 ou 之 间 的 误差 更 小 。 





VC Bound 
Eour(W) € Ej (Ww) + 2(H) 









Augmented Error 






Euo(w) = E (w) + Aw! w 





e regularizer w/w : complexity of a single hypothesis 
e generalization price Q(H): complexity of a hypothesis set 
* if 5O(w) ‘represents’ Q(H) well, 

Eaug is a better proxy of Eout than Ein 











根据 VC Dimension 理 论 ， 整 个 hypothesis set 的 dvc — d 十 1， 这 是 因为 所 有 的 w 都 
考虑 了 ， 没 有 任何 限制 条 件 。 而 引入 限定 条 件 的 dvc (H(C)) = darr(H, A), BD 
有 效 的 VC dimension。 也 就 是 说 ，dyc (五 ) 比 较 大 ， 因 为 它 代表 了 整个 hypothesis 
set, (H@darr(H, 4) 比 较 小 ， 因 为 由 于 regularized 的 影响 ， 限 定 了 w 只 取 一 小 部 
分 。 其 中 A 表 示 regularized 算 法 。 当 入 > 0 时 ， 有 : 


dgrr(H, A) < dve 
这 些 与 实际 情况 是 相符 的 ， 比 如 对 多 项 式 拟 合 模型 ,> 当 入 = 0 时 ， 所 有 的 w 都 给 予 考 


虑 ， 相 应 的 gwvc 很 大 ， 容 易 发 生 过 拟 合 。 当 入 > 0 且 越 来 越 大 时 ， 很 多 w 将 被 舍弃 ， 
derr(H, 4) 减 小 ， 拟 合 曲 线 越 来 越 平滑 和 容易 发 生 欠 拟 合 。 


四 、General Regularizers 


那么 通用 的 Regularizers， 即 Q(kw)， 应 该 选择 什么 样 的 形式 呢 ? 一 般 地 ， 我 们 会 朝 着 
目标 函数 的 方向 进行 选取 ,有 三 种 方式 : 


e target-dependent 
e plausible 


e friendly 


e target-dependent: some properties of target, if known 
e symmetry regularizer: ^ [q is odd] ws 


e plausible: direction towards smoother or simpler 
stochastic/deterministic noise both non-smooth 


e sparsity (L1) regularizer: > |w;| (next slide) 
e friendly: easy to optimize 
e weight-decay (L2) regularizer: 5" ws 





其 实 这 三 种 方法 跟 之 前 error measure 类 似 ， 其 也 有 三 种 方法 : 


e user-dependent 
e plausible 


e friendly 


regularizer&error measure 是 机 器 学 习 模 型 设计 中 的 重要 步骤 。 


augmented error = error érr + regularizer Q 
regularizer: target-dependent, plausible, or friendly 
ringing a bell? :-) 
error measure: user-dependent, plausible, or friendly 


接 下 来 ， 介 绍 两 种 Regularizer: L2 和 L1。L2 Regularizer 一 般 比 较 通 用 ， 其 形式 如 
Ts 


这 种 形式 的 regularizer 计 算 的 是 w 的 平方 和 ”是 凸 函 数 ， 比 较 平 渭 ， 易 于 微分 ， 容 易 进 
行 最 优化 计算 。 


L1 Regularizer 的 表达 式 如 下 : 


Q 
= ` [w| = |hwlls 
q=0 


L1 计 算 的 不 是 w 的 平方 和 ， 而 是 绝对 值 和 ， 即 长 度 和 ， 也 是 凸 函数 。 已 知 ww = C 
ERZAR, mwl = C 围 成 的 是 正方 形 ， 那 么 在 正方 形 的 四 个 顶点 处 ， 是 不 可 
微分 的 (不 像 圆 形 ， 处 处 可 微分 ) 。 根 据 之 前 介绍 的 平行 等 式 推导 过 程 ， 对 应 这 种 正 
方形 ， 它 的 解 大 都 位 于 四 个 顶点 处 (不 太 理解 ， 欢 迎 补充 赐教 ) ， 因 为 正方 形 边 界 处 
的 w 绝 对 值 都 不 为 零 ， 若 一 V Bin 不 与 其 平行 ， 那 么 w 就 会 向 顶点 处 移动 ， 顶 点 处 的 许 
多 w 分 量 为 零 ， 所 以 ，L1 Regularizer 的 解 是 稀 踊 的 ， 称 为 sparsity。 优 点 是 计算 速度 
快 。 





En = const. 


Ej, = const. 









lwl: =C 

L1 Regularizer 
Q 

Aw) = 5, Wal = lwih 


e convex, not differentiable 
everywhere 


e sparsity in solution 


L2 Regularizer 
Q 
2(w) = J o "4 = lwl 


e convex, differentiable 
everywhere 





e easy to optimize 


L1 useful if needing sparse solution 





下 面 来 看 一 下 入 如 何 取 值 ， 首 先 ， 若 stochastic noise 不 同 ， 那 么 一 般 情 况 下 ， 入 取 值 有 
如 下 特点 : 


stochastic noise 


Expected Lott 





1 L5 2 
Regularizat ion Parameter, À 


从 图 中 可 以 看 出 ，stochastic noise 越 大 ， 入 越 大 。 
另 一 种 情况 ， 不 同 的 deterministic noise， 入 取 值 有 如 下 特点 : 





deterministic noise 


M: Q; = 100 


Qs = 30 





Expected E, 


Qf = 15 


0.5 本 上 1.5 ] 
Regularization Parameter, A 





从 图 中 可 以 看 出 ，deterministic noise 越 大 ， 入 越 大 。 


以 上 两 种 noise 的 情况 下 ， 都 是 noise 越 大 ， 相 应 的 和 也 就 越 大 。 这 也 很 好 理解 ， 如 果 在 
开车 的 情况 下 ， 路 况 也 不 好 ， 即 noise 越 多 ， 那 么 就 越 会 踩 刹 车 ， 这 里 踩 判 车 指 的 就 是 
regularization。 但 是 大 多 数 情况 下 ，noise 是 不 可 知 的 ， 这 种 情况 下 如 何 选 择 入 ”这 部 
分 内 容 ， 我 们 下 节 课 将 会 讨论 。 


五 、 总 结 


本 节 课 主要 介绍 了 Regularization。 首 先 ， 原 来 的 hypothesis set 加 上 一 些 限 制 条 件 ， 
就 成 了 Regularized Hypothesis Set。 加 上 限制 条 件 之 后 ， 我 们 就 可 以 把 问题 转化 为 
五 wu 最 小 化 问题 ， 即 把 w 的 平方 加 进去 :这 种 过 程 ， 实 际 上 回 降低 VC Dimension, & 
后 ， 介 绍 regularization 是 通用 的 机 器 学 习 工 具 ， 设 计 方 法 通常 包括 target- 
dependent，plausible，friendly 等 等 。 下 节 课 将 介绍 如 何 选取 合适 的 和 来 建立 最 佳 拟 
合 模型 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 基石 》 课 程 





林 轩 田 《 机 器 学 习 基 石 》 课 程 笔记 15 -- Validation 


VES: 红色 石头 ARE: AI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 讲 了 为 了 避免 overfitting， 可 以 使 用 regularization 方 法 来 解决 。 在 之 前 
的 Bin 上 加 上 一 个 regularizer， 生 成 Bowg， 将 其 最 小 化 ， 这 样 可 以 有 效 减 少 模型 的 复 
杂 度 ， 避 免 过 拟 合 现 象 的 发 生 。 那 么 ， 机 器 学 习 领 域 还 有 许多 选择 ， 如 何 保证 训 | 练 的 
模型 具有 良好 的 泛 化 能 力 ? 本 节 课 将 介绍 一 些 概念 和 方法 来 解决 这 个 选择 性 的 问题 。 


一 、Model Selection Problem 


机 器 学 习 模 型 建立 的 过 程 中 有 许多 选择 ， 例 如 对 于 简单 的 三 元 分 类 问题 ， 首 先是 算法 
A 的 选择 ， 有 PLA，pocket，linear regression, logistic regression$s sS; EU 
次 数 T 的 选择 ， 有 100，1000,10000 等 等 ; 之 后 是 学 习 速 率 7 的 选择 ， 有 1， 
0.01,0.0001 等 等 ; 接着 是 模型 特征 转换 更 的 选择 ， 有 linear，quadratic，poly-10， 
Legendre-poly-10 等 等 ; 然后 是 正则 化 regularizer 的 选择 ， 有 L2，L1 等 等 ; 最 后 是 正 
则 化 系数 和 的 选择 ， 有 0，0.01，1 等 等 。 不 同 的 选择 搭配 ， 有 不 同 的 机 器 学 习 效 果 。 
我 们 的 目标 就 是 找到 最 合适 的 选择 搭配 ， 得 到 一 个 好 的 矩 g， 构 建 最 佳 的 机 器 学 习 模 


型 。 


Even Just for Binary Classification . . . 





A € { PLA, pocket, linear regression, logistic regression} 
X 
T € { 100, 1000, 10000} 
X 
n € { 1,0.01, 0.0001} 
X 
® c { linear, quadratic, poly-10, Legendre-poly-10} 
X 
Q(w) € ( L2 regularizer, L1 regularizer, symmetry regularizer} 
X 


A € { 0,0.01, 1} 





假设 有 M 个 模型 ， 对 应 有 有 1, H2,---, Hm, BUMP hypothesis set， 演 算法 为 

41, 42，,… , AM ， 共 M 个 。 我 们 的 目标 是 从 这 M 个 hypothesis set 中 选择 一 个 模型 
Hm ， 通 过 演算 法 4w* 对 样本 集 D 的 训练 ， 得 到 一 个 最 好 的 和 矩 gm:， 使 其 Bow (gm* ) pas 
最 小 。 所 以 ， 问 题 的 关键 就 是 机 器 学 习 中 如 何 选择 到 最 好 的 和 撼 gr* 。 a : 





考虑 有 这 样 一 种 方法 ， 对 M 个 模型 分 别 计算 使 已 ”最 小 的 矩 g， 再 横向 比较 ， 取 其 中 能 
EEn x NER Gm: : 


m* = argmin( Em = Ein(Am(D))) 


1<m<M 


(BS Ej EENH RERNE, ROMA REI ATFB gm 发 生 了 过 拟 合 ， 泛 化 
能 力 很 差 。 而 且 这 种 “模型 选择 + 学 习 训 练 "的 过 程 ， 它 的 VC Dimension= 

dvc (Hi U 万 。 )， 模 型 复杂 度 增 加 。 总 的 来 阅 ， 泛 化 能 力 差 ， 用 瓦 im 来 选择 模型 是 不 
好 的 。 


另外 一 种 方法 ， 如 果 有 这 样 一 个 独立 于 训练 样本 的 测试 集 ， 将 M 个 模型 在 测试 集 上 进 
行 测试 ， 看 一 下 Etest 的 大 小 ， 则 选取 biest 最 小 的 模型 作为 最 佳 模 型 : 


m* = argmin(En = Fie AP) 
1<m<M 


这 种 测试 集 验 证 的 方法 ， 根 据 finite-bin Hoffding 不 等 式 ， 可 以 得 到 : 


logM 
Niest 





Eoi (gm* ) a UA y; (gm: ) + O( ) 


由 上 式 可 以 看 出 ， 模 型 个 数 M 越 少 ， 测 试 集 数目 越 大 ， 那 么 O(W R ) 越 小 ， 即 
Erst (gm: ) 越 接近 于 五 ou: (gm* )。 


下 面 比较 一 下 之 前 讲 的 两 种 方法 ， 第 一 种 方法 使 用 in 作为 判 凯 基准 ， 使 用 的 数据 集 

就 是 训练 集 D 本 身 ; 第 二 种 方法 使 用 Etest 作 为 判断 基准 ， 使 用 的 是 独立 于 训练 集 D 之 

外 的 测试 集 。 前 者 不 仅 使 用 D 来 训练 不 同 的 gm ， 而 且 又 使 用 D 来 选择 最 好 的 gw* ， 那 

么 gm* 对 未 知 数据 并 不 一 定 泛 化 能 力 好 。 举 个 例子 ， 这 相当 于 老师 用 学 生 做 过 的 练习 

题 再 来 对 学 生 进行 考试 ， 那 么 即使 学 生得 到 高 分 ， 也 不 能 说明 他 的 学 习 能 力 强 。 所 以 
最 小 化 in 的 方法 并 不 科学 。 而 后 者 使 用 的 是 独立 于 D 的 测试 集 ， 相 当 于 新 的 考试 题 能 
更 好 地 反映 学 生 的 真实 水 平 ， 所 以 最 小 化 iest 更 加 理想 。 











In-Sample error 
e calculated from D 
e feasible on hand 


e ‘contaminated’ as D also 
used by A, to ‘select’ gm 






ə calculated from Dyes: 
e infeasible in boss's safe 

* ‘clean’ as Diest never used 
for selection before 





但 是 ， 我 们 拿 到 的 一 都 是 训练 集 D， 测 试 集 是 拿 不 到 的 。 所 以 ， 寻 找 一 种 折 中 的 办 
法 ， 我 们 可 以 使 用 已 有 的 训练 集 D 来 创造 一 个 验证 集 validation set， 即 从 D 中 划 出 一 部 
分 Dval 作 为 验证 集 。D 另 外 的 部 分 作为 训 | 练 模型 使 用 ，Dwal 独 立 开 来 ， 用 来 测试 各 个 
模型 的 好 坏 ， 最 小 化 请 ya; ， 从 而 选择 最 佳 的 gm 。 








something in between: Evai 
e calculated from Dya c D 
e feasible on hand 


e ‘clean’ if Dya never used 
by Am before 








—. Validation 


从 训练 集 D 中 抽出 一 部 分 K 个 数据 作为 验证 集 Dwa: ，Dwal 对 应 的 error 记 为 上 yay。 这 样 
做 的 一 个 前 提 是 保证 Dwar 独立 同 分 布 (iid) 于 P(x,y)， 也 就 是 说 Dwa 的 选择 是 从 D 中 
平均 随机 抽样 得 到 的 ， 这 样 能 够 把 上 Bwo1 与 Bowt 联 系 起 来 。D 中 去 除 Dvar 后 的 数据 就 是 
供 模 型 选择 的 训练 数据 Dwiain ， 其 大 小 为 N-k。 从 Dirain 中 选择 最 好 的 和 矩 ， 记 为 gm,。 


Ein(h) Eval(h) 
Tt 1 
e Ti Drain U Da 
size N size N-K size K 

Uu i 


gm — .Am(D) gm = Am( Dirain) 


假如 D 共 有 1000 个 样本 ， 那 么 可 以 选择 其 中 900 个 Drain， 剩 下 的 100 个 作为 Dya。 
使 用 Dirain, 训 练 模型 ， 得 到 最 佳 的 gj, ， 使 用 gj 对 Da 进行 验证 ， 得 到 如 下 Hoffding 
不 等 式 : 





logM 


out (9m) < Eval (9m) et O( K ) 





假设 有 M 种 模型 hypothesis set，Dal 的 数量 为 K， 那 么 从 每 种 模型 m 中 得 到 一 个 在 
Dwal 上 表现 最 好 的 矩 ， 表 横向 比较 ， 从 M 个 和 矩 中 选择 一 个 最 好 的 mx* 作 为 我 们 最 终 得 
到 的 模型 。 


m = argmin( Em 一 val(Am( Dtrain))) 
1<m<M 


现在 由 于 数量 为 N 的 总 样本 D 的 一 部 分 K 作 为 验证 集 ， 那 和 只 有 N-k 个 样本 可 供 训 | 练 。 
从 Dirain 中 得 到 最 好 的 g”, ， 而 总 样本 D 对 应 的 最 好 的 矩 为 gr* 。 根 据 之 前 的 leraning 
curve 很 容易 知道 ， 训 练 样本 越 多 ， 得 到 的 模型 越 准确 ， 其 hypothesis 越 接近 target 
function， 即 D 的 owt 比 Dirain 的 Bowut 要 小 : 





所 以 ， 我们 通常 的 做 法 是 通过 Doi 来 选择 最 好 的 矩 gi 对 应 的 模型 ， 再 对 整体 样 
本 集 D 使 用 该 模型 进行 训练 ， 最 终 得 到 最 好 的 矩 gr* 。 


总 结 一 下 ， 使 用 验证 集 进 行 模型 选择 的 整个 过 程 为 : 先 将 D 分 成 两 个 部 分 ， 一 个 是 训 

练 样本 Piroin ， 一 个 是 验证 集 忆 ww 。 若 有 M 个 模型 ， 那 么 分 别 对 每 个 模型 企 Pirain 上 
进行 训练 ， 得 到 和 矩 gr ， 再 用 Dwal 对 每 个 gn, 进行 验证 ， 选 择 表 现 最 好 的 和 矩 gj WU 

和 矩 对 应 的 模型 被 选择 。 最 后 使 用 该 模型 对 整个 D 进 行 训练 ， 得 到 最 终 的 gr* 。 下 图 展示 
了 整个 模型 选择 的 过 程 : 





E» --- Em 


pick the best 


(Hm* 》 Emn ) 





Gm* 
不 等 式 关 系 满足 : 
logM 
K 
下 面 我 们 举 个 例子 来 解释 这 种 模型 选择 的 方法 的 优越 性 ， 假 设 有 两 个 模型 : 一 个 是 5 阶 


多 项 式 Hs,， 一 个 是 10 阶 多 项 式 及 1,。 通 过 不 使 用 验证 集 和 使 用 验证 集 两 种 方法 对 
模型 选择 结果 进行 比较 ， 分 析 结 果 如 下 : 





FI dt (Jm) < Eou (9,,*) < Eyal (9, ) 十 O( 
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图 中 ， 横 坐标 表示 验证 集 数量 K， 纵 坐标 表示 五 ou 大小。 黑色 水 平 线 表示 没有 验证 
集 ， 完 全 使 用 Bin 进行 判断 基准 ， 那 么 及 ,更 好 一 些 ,但 是 a 
而 且 与 K 无 天 。 黑 色 虚 线 表示 测试 集 非常 接近 实际 数据 ， 这 是 一 种 理想 的 情况 ， 其 





五 很 小 同样 也 与 K 无 天 ， 实 际 中 很 难得 到 这 条 虚线 。 红 色 曲 线 表示 使 用 验证 集 ， 
但 是 最 终 选 取 的 矩 是 9". ， 其 趋势 是 随 着 K 的 增加 ， 它 对 应 的 Bowi 先 减 小 再 增 大 ， 当 K 
大 于 一 定 值 的 时 候 ， 甚 至 会 超过 黑色 水 平 线 。 蓝 色 曲 线 表示 也 使 用 验证 集 ， 最 终 选 取 
的 矩 是 gr* ， 其 趋势 是 随 着 K 的 增加 ， 它 对 应 的 Bowt 先 绥 慢 减 小 再 缓慢 增 大 ， 目 一 直 
位 于 红色 曲线 和 黑色 直线 之 下 。 从 此 可 见 ， 蓝 色 曲 线 对 应 的 方法 最 好 ， 符 合 我 们 之 前 
讨论 的 使 用 验证 集 进 行 模型 选择 效果 最 好 。 


这 里 提 一 点 ， 当 K 大 于 一 定 的 值 时 ， 红 色 曲 线 会 超过 黑色 直线 。 这 是 因为 随 着 K 的 增 
大 ，Dval 增 大 ， 但 可 供 模 型 训练 的 Diroin 在 减 小 ， 那 得 到 的 g%; 不 具有 很 好 的 泛 化 能 
力 ， 即 对 应 的 Bowt 会 增 大 ， 甚 至 当 K 增 大 到 一 定 值 时 ， 比 in, 模型 更 差 。 


那么 ， 如 何 设 置 验 证 集 K 值 的 大 小 呢 ? 根据 之 前 的 分 析 : 


Eout(9) X Eou(9" ) ne Eval(9 ) 
(small K) (large K) 


KERAN, Eva © owt， 但 是 gn 与 gm 相差 很 大 ; 当 K 值 很 小 是 ，gm ~ Im. 
但 是 瓦 w 与 妃 必 可 能 相差 很 大 。 所 以 有 个 折 中 的 办 法 ， 通 常设 置 太 二 他 。 值 得 一 提 
的 是 ， 划 分 验证 集 ， 通 常 并 不 会 增加 整体 时 间 复杂 度 ， 反 而 会 减少 ， 因 为 Diroin 减 少 
ge 


=, Leave-One-Out Cross Validation 


假如 考虑 一 个 极端 的 例子 ”k=1， 也 就 是 说 验证 集 大 小 为 1， 即 每 次 只 用 一 组 数据 对 
gm 进行 验证 。 这 样 做 的 优点 是 gh © gm ， 但 是 加 jar 与 owt 可 能 相差 很 大 。 为 了 避免 
,ol 与 Bowt 相 差 很 大 ， 每 次 从 D 中 取 一 组 作为 验证 集 ， 直 到 所 有 样本 都 作 过 验证 集 ， 
共计 算 N 次 ， 最 后 对 验证 误差 求 平均 ， 得 到 ioow (五 , A)， 这 种 方法 称 之 为 留 一 法 交 
叉 验 证 ， 表 达 式 为 : 


ic jw 
El, A) — N >》 en = N >》 err(gn (£n), Yn) 


n=1 n=1 
这 样 求 平均 的 目的 是 为 了 让 Blooww (H, A) 尽 可 能 地 接近 Bowt (9)。 
下 面 用 一 个 例子 图 解 留 一 法 的 过 程 : 








Ese linear) = FE (e: 十 ez 十 Py 


Eioocv(constant) = a(e: 十 ez + &3) 


如 上 图 所 示 ， 要 对 二 维 平面 上 的 三 个 点 做 拟 合 ， 上 面 三 个 图 表示 的 是 线性 模型 ， 下 面 
三 个 图 表示 的 是 常数 模型 。 对 于 两 种 模型 ， 分 别 使 用 留 一 交叉 验证 法 来 计算 如 Joocv， 

计算 过 程 都 是 每 次 将 一 个 点 作为 验证 集 ， 其 他 两 个 点 作为 训练 集 ， 最 终 将 得 到 的 验证 
误差 求 平均 值 ， 就 得 到 了 Eioocw (Linear) 和 B10ocw (constant)， 比 较 两 个 值 的 大 小 ， 
取 值 小 对 应 的 模型 即 为 最 佳 模型 。 


m* = argmin( Em = Boocv(Hm, Am)) 


t<m<M 


接 下 来 ,我们 从 理论 上 分 析 Leave-One-Out 方 法 的 可 行 性 ， 即 Bloocww (H, 4) 是 否 能 保 
WE Fou FLERE? 假设 有 不 同 的 数据 集 D， 它 的 期 望 分 布 记 为 cp ， 则 其 

Ey, (H, 4) 可 以 通过 推导 ， 等 于 ou (NN 一 1) 的 平均 值 。 由 于 N-1 近 似 为 N， 
Esau (N 一 1) 的 平均 值 也 近似 等 于 ovi (入 ) 的 平均 值 。 具 体 推导 过 程 如 下 : 





E Evocv( H, A) = 


PL 


N 
= wd t 6 Jer(gn (Xn), Yn) 


1 Pa(Xn.Yn 


z|- 
1M2 
® 
| 


= 1 > $, Foulon) 
= x ALT Eout(N — 1) = Eout(N — 1) 


EHE YS UR A E Ejooc, (H, 4) 的 期 望 值 和 已 oz (g” ) 的 期 望 值 是 相近 的 ， 这 代 
表 得 到 了 比较 理想 的 Bowi (9)，Leave-One-Out 访 法 是 可 行 的 。 


举 一 个 例子 ， 使 用 两 个 特征 : Average Intensity 和 Symmetry 加 上 这 两 个 特征 的 非 线 性 
变换 (例如 高 阶 项 ) 来 进行 手写 数字 识别 。 平 面 特征 分 布 如 下 图 所 示 : 


Symmetry 





Average Intensity 


Error 与 特征 数量 的 关系 如 下 图 所 示 : 





Eout 
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从 图 中 我 们 看 出 ， 随 着 特征 数量 的 增加 ，i; 不 断 减 小 , Bou FEA, BA 
Bin 是 不 断 减 小 的 ， 但 是 它 与 Bowt 的 差距 越 来 越 大 ， 发 生 了 过 拟 合 ， 泛 化 能 力 太 差 。 
而 情 w 与 Bowt 的 分 布 基本 一 人 致 ， 能 较 好 地 反映 Bo 襄 的 变化 。 所 以 ， 我 们 只 要 使 用 
Leave-One-Out 方 法 得 到 使 bo 最 小 的 模型 ， 就 能 保证 其 Bowt 足 够 小 。 下 图 是 分 别 使 
用 i, 和 bow 进行 训练 得 到 的 分 类 曲线 : 


Symmetry 
Symmetry 
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Average Intensity 


select by Ein select by 后 oocv 


很 明显 可 以 看 出 1 使 用 E;n 发 生 了 过 拟 合 I mE loocv 分 类 效果 更 好 1 泛 化 能 力 强 。 


四 、V-Fold Cross Validation roam 
ALIE 





接 下 来 我 们 看 看 Leave-One-Out 可 能 的 问题 是 什么 。 首 先 ， 第 一 个 问题 是 计算 量 ， 假 
设 N=1000， 那 么 就 需要 计算 1000 次 的 马 oocu ， 再 计算 其 平均 值 。 当 N 很 大 的 时 候 ， 计 
算 量 是 巨大 的 ， 很 耗费 时 间 。 第 二 个 问题 是 稳定 性 ， 例 如 对 于 二 分 类 问题 ， 取 值 只 有 0 
和 1 两 种 ， 预 测 本 身 存在 不 稳定 的 因素 ， 那 么 对 所 有 的 Bioocw 计 算 平 均值 可 能 会 带 来 很 
大 的 数值 跳动 ， 稳 定性 不 好 。 所 以 ， 这 两 个 因素 决定 了 Leave-One-Out 方 法 在 实际 中 
并 不 常用 。 


针对 Leave-One-Out 的 缺点 ， 我 们 对 其 作出 了 改进 。Leave-One-Out 是 将 N 个 数据 分 成 
N 分 ， 那 么 改进 措施 是 将 N 个 数据 分 成 V 份 (例如 V=10) , 计算 过 程 与 Leave-One-Out 
相似 。 这 样 可 以 减少 总 的 计算 量 ， 又 能 进行 交叉 验证 ， 得 到 最 好 的 和 矩 ， 这 种 方法 称 为 
V- 折 交叉 验证 。 其 实 Leave-One-Out 就 是 V- 折 交叉 验证 的 一 个 极端 例子 。 


lx E 
Ew (H, A) = V D EY) (97) 
v—1 
所 以 呢 ， 一 般 的 Validation 使 用 V- 折 交叉 验证 来 选择 最 佳 的 模型 。 值 得 一 提 的 是 
Validation 的 数据 来 源 也 是 样本 集中 的 ， 所 以 并 不 能 保证 交叉 验证 的 效果 好 ， 它 的 模型 
一 定好 。 只 有 样本 数据 越 多 ， 越 广泛 ， 那 么 Validation 的 结果 越 可 信 ， 其 选择 的 模型 泛 
化 能 力 越 强 。 


五 、 总 结 

本 节 课 主要 介绍 了 Validation 验 证 。 先 从 如 何 选择 一 个 好 的 模型 开始 切入 ， 例 如 使 用 
in、Bitest 都 是 不 太 好 的 ,。 最终 使 用 已 ,过来 进行 模型 选择 。 然 后 详细 介绍 了 
Validation 的 过 程 。 最 后 ,介绍 了 Leave-One-Out 和 V-Fold Cross 两 种 验证 方法 ， 比 较 
它们 各 自 的 优点 和 和 缺点， 实际 情况 下 ，V-Fold Cross 更 加 常用 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 基石 》 课 程 





林 轩 田 《 机 器 学 习 基石 》 课 程 笔记 16 (完结 ) -- Three 


Learning Principles 


VES: 红色 石头 。 公众 号 : Al 有 道 (id: redstonewill) 


上 节 课 我 们 讲 了 一 个 机 器 学 习 很 重要 的 工具 一 一 Validation。 我 们 将 整个 训练 集 分 成 两 
部 分 : Dirain 和 Dvay， 一 部 分 作为 机 器 学 习 模 型 建立 的 训练 数据 ， 另 一 部 分 作为 验证 
模型 好 坏 的 数据 ， 从 而 选择 到 更 好 的 模型 ， 实 现 更 好 的 泛 化 能 力 。 这 节 课 ， 我 们 主要 
介绍 机 器 学 习 中 非常 实用 的 三 个 " 锦 圳 妙计 "。 


—. Occam's Razor 


奥 卡 姆 剃刀 定律 (Occam's Razor) ， 是 由 14 世 纪 逻 辑 学 家 、 圣 方 济 各 会 修士 奥 卡 
的 威廉 (William of Occam， 约 1285 年 至 1349 年 ) 提出 。 奥 卡 姆 (Ockham) 在 英 格 
兰 的 萨 里 郡 ， 那 是 他 出 生 的 地 方 。 他 在 《 航 言 书 注 》2 卷 15 题 说 “ 切 勿 浪费 较 多 东西 去 
做 用 较 少 的 东西 同样 可 以 做 好 的 事情 。 ”这 个 原理 称 为 "如 无 必要 ， 勿 增 实体 ”(Entities 
must not be multiplied unnecessarily) ， 就 像 剃 刀 一 样 ， 将 不 必要 的 部 分 去 除 掉 。 


Occam's Razor 反 映 到 机 器 学 习 领 域 中 ， 指 的 是 在 所 有 可 能 选择 的 模型 中 ， 我 们 应 该 
选择 能 够 很 好 地 解释 已 知 数据 并 且 十 分 简单 的 模型 。 








上 图 就 是 一 个 模型 选择 的 例子 ， 左 边 的 模型 很 简单 ， 可 能 有 分 错 的 情况 ;而 右边 的 模 
型 非常 复杂 ， 所 有 的 训练 样本 都 分 类 正确 。 但 是 ， 我 们 会 选择 左边 的 模型 ， 它 更 简 
单 ， 符 合 人 类 直觉 的 解释 方式 。 这 样 的 结果 壳 来 两 个 问题 : 一 个 是 什么 模型 称 得 上 是 
简单 的 ? 另 一 个 是 为 什么 简单 模型 比 复杂 模型 要 好 ? 





征 比较 少 ， 例 如 多 项 式 阶 数 比较 少 。 简 单 模 型 另 一 方面 指 的 是 模型 H 包 含 的 hypothesis 
数目 有 限 ， 不 会 太 多 ， 这 也 是 简单 模型 包含 的 内 容 。 







simple model H 





simple hypothesis h 
e small Q(h) = ‘looks’ simple s small Q(X) = not many 
e specified by few e contains small number of 





hypotheses 





parameters 





RE, simple hypothesis h 和 simple model H 是 紧密 联系 的 。 如 果 hypothesis 的 特征 个 
数 是 |， 那 么 H 中 包含 的 hypothesis 个 数 就 是 2 ， 也 就 是 说 ，hypothesis 特 征 数目 越 少 ， 
H 中 hypothesis 数 目 也 就 越 少 。 


所 以 ， 为 了 让 模型 简单 化 ， 我 们 可 以 一 开始 就 选择 简单 的 model， 或 者 用 
regularization， 让 hypothesis 中 参数 个 数 减少 ， 都 能 降低 模型 复杂 度 。 


那 为 什么 简单 的 模型 更 好 呢 ? 下 面 从 哲学 的 角度 简单 解释 一 下 。 机 器 学 习 的 目的 是 ' 找 
规律 "， 即 分 析 数 据 的 特征 ， 总 结 出 规律 性 的 东西 出 来 。 假 设 现在 有 一 堆 没有 规律 的 杂 
乱 的 数据 需要 分 类 ， 要 找到 一 个 模型 ， 让 它 的 Biw, — 0， 是 很 难 的 ， 大 部 分 时 候 都 无 
法 正确 分 类 ， 但 是 如 果 是 很 复杂 的 模型 ， 也 有 可 能 将 其 分 开 。 反 过 来 说， 如 果 有 另 一 
组 数据 ， 如 果 可 以 比较 容易 找到 一 个 模型 能 完美 地 把 数据 分 开 ， 那 表明 数据 本 身 应 该 
是 有 某 种 规律 性 。 也 就 是 说 杂乱 的 数据 应 该 不 可 以 分 开 ， 能 够 分 开 的 数据 应 该 不 是 杂 
乱 的 。 如 果 使 用 某 种 简单 的 模型 就 可 以 将 数据 分 开 ， 那 表明 数据 本 身 应 该 符合 某 种 规 
律 性 。 相 反 地 ， 如 果 用 很 复杂 的 模型 将 数据 分 开 ， 并 不 能 保证 数据 本 身 有 规律 性 存 
在 ,也 有 可 能 是 杂乱 的 数据 ， 因 为 无 论 是 有 规律 数据 还 是 杂乱 数据 ， 复 杂 模 型 都 能 分 
开 。 这 就 不 是 机 器 学 习 模 型 解决 的 内 容 了 。 所 以 ， 模 型 选择 中 ， 我 们 应 该 尽量 先 选择 
简单 模型 ， 例 如 最 简单 的 线性 模型 。 


—. Sampling Bias 


首先 引入 一 个 有 趣 的 例子 : 1948 年 美国 总 统 大 选 的 两 位 热门 候选 人 是 Truman 和 
Dewey。 一 家 报纸 通过 电话 采访 ， 统 计 人 们 把 选票 投 给 了 Truman 还 是 Dewey。 经 过 大 
量 的 电话 统计 显示 ， 投 给 Dewey 的 票数 要 比 投 个 Truman 的 票数 多 ， 所 以 这 家 报纸 就 在 
选举 结果 还 没 公布 之 前 ， 信 心 满 满 地 友 表 了 "Dewey Defeats Truman" 的 报纸 头 版 ， 认 
为 Dewey 肯 定 赢 了 。 但 是 大 选 结果 公布 后 ， 让 这 家 报纸 大 跌眼镜 ， 最 终 Truman 赢 的 了 
大 选 的 胜利 。 





不 好 ? 都 不 是 。 其 实 是 因为 当时 电话 比较 贵 ， 有 电话 的 家 庭 比较 少 ， 而 正好 是 有 电话 
的 美国 人 支持 Dewey 的 比较 多 ， 而 没有 电话 的 支持 Truman 比 较 多 。 也 就 是 说 样本 选择 
偏向 于 有 钱 人 那 边 ， 可 能 不 具有 广泛 的 代表 性 ， 才 造成 Dewey 支 持 率 更 多 的 假象 。 


这 个 例子 表明 ， 抽 样 的 样本 会 影响 到 结果 ， 用 一 句 话 表示 “lf the data is sampled in a 
biased way, learning will produce a similarly biased outcome "BBE, REAR 


差 的 话 ， 那 么 学 习 的 结果 也 产生 了 偏差 ， 这 种 情形 称 之 为 抽样 偏差 Sampling Bias, 


从 技术 上 来 说 ， 就 是 训练 数据 和 验证 数据 要 服从 同一 个 分 布 ， 最 好 都 是 独立 同 分 布 
的 ， 这 样 训练 得 到 的 模型 才能 更 好 地 具有 代表 性 。 


三 、Data Snooping 


之 前 的 课程 ， 我 们 介绍 过 在 模型 选择 时 应 该 尽量 避免 偷 寅 数据 ， 因 为 这 样 会 使 我 们 人 
为 地 倾向 于 某 种 模型 ， 而 不 是 根据 数据 进行 随机 选择 。 所 以 ; 更 应 该 自由 选取 ， 最 好 
不 要 偷 守 到 原始 数据 ， 这 会 影响 我 们 的 判断 。 


事实 上 ， 数 据 偷 宽 发 生 的 情况 有 很 多 ， 不 仅仅 指 我 们 看 到 了 原始 数据 。 什 么 意思 呢 ? 
其 实 ， 当 你 在 使 用 这 些 数据 的 任何 过 程 ， 都 是 间接 地 偷 看 到 了 数据 本 身 ， 然 后 你 会 进 
行 一 些 模 型 的 选择 或 者 决策 ， 这 就 增加 了 许多 的 model complexity， 也 就 是 引入 了 污 


下 面 举 个 例子 来 说 明 。 假 如 我 们 有 8 年 的 货 比 交易 数据 ， 我 们 希望 从 这 些 数据 中 找 出 规 
律 ， 来 预测 货 比 的 走势 。 如 果 选 择 前 6 年 数据 作为 训练 数据 ， 后 2 年 数据 作为 测试 数据 
的 话 ， 来 训练 模型 。 现 在 我 们 有 前 20 天 的 数据 ， 根 据 之 前 训练 的 模型 ， 来 预测 第 21 天 


的 货 比 交易 走势 。 


snooping 


20 
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现在 有 两 种 训练 模型 的 方法 





数据 作为 测 坛 ， 图 中 蓝 色 曲 线 表 示 后 2 年 的 预测 收益 ; 另 一 种 是 直接 使 用 8 年 数据 进行 
模型 训练 ， 图 中 红色 曲线 表示 后 2 年 的 预测 收益 情况 。 图 中 ， 很 明显 ， 使 用 8 年 数据 进 
行 训练 的 模型 对 后 2 年 的 预测 的 收益 更 大 ， 似 乎 效果 更 好 。 但 是 这 是 一 种 自欺欺人 的 做 
法 ， 因 为 训练 的 时 候 已 经 拿 到 了 后 2 年 的 数据 ， 用 这 样 的 模型 再 来 预测 后 2 年 的 走势 是 
不 科学 的 。 这 种 做 法 也 属于 间接 偷 帘 数据 的 行为 。 直 接 偷 帘 和 间接 偷 寓 数 据 的 行为 都 
是 不 科学 的 做 法 ， 并 不 能 表示 训练 的 模型 有 多 好 。 


e snooping: shift-scale all values by training + testing 
e no snooping: shift-scale all values by training only 


还 有 一 个 偷 规 数据 的 例子 ， 比 如 对 于 某 个 基准 数据 集 D， 某 人 对 它 建立 了 一 个 模型 
H1， 并 上 友 表 了 论文 。 第 二 个 人 看 到 这 篇 论文 后 ， 又 会 对 D， 建 立 一 个 新 的 好 的 模型 
H2。 这 样 ， 不 断 地 有 人 看 过 前 人 的 论文 后 ， 建 立新 的 模型 其实， 后 面 人 选择 模型 
时 ， 已 经 被 前 人 影响 了 ， 这 也 是 偷 宕 数据 的 一 种 情况 。 也 许 你 能 对 D 训 练 很 好 的 模 
型 ， 但 是 可 能 你 仅仅 只 根据 前 人 的 模型 ， 成 功 避 开 了 一 些 错误 ， 甚 至 可 能 龙 生 了 
overfitting 或 者 bad generalization。 所 以 ， 机 器 学 习 领 域 有 这 样 一 句 有 意思 的 话 “ 上 fyou 
torture the data long enough, it will confess.” 所 以 ， 我 们 不 能 太 “ 折 磨 ” 我 们 的 数据 了 ， 
否则 它 只 能 “ 受 协 ”了 ~ 哈哈 。 


在 机 器 学 习 过 程 中 ， 避 免 “ 偷 规 数 据 "非常 重要 ， 但 实际 上 ， 完 全 避免 也 很 困难 。 实 际 
操作 中 ， 有 一 些 方法 可 以 帮助 我 们 尽量 避免 偷 宕 数据 。 第 一 个 方法 是 ' 看 不 见 ' 数 据 。 
就 是 说 当 我 们 在 选择 模型 的 时 候 ” 尽量 用 我 们 的 经 验 和 知识 来 做 判断 选择 ， 而 不 是 通 
过 数据 来 选择 。 先 选 模型 全 再 看 数据 。 第 二 个 方法 是 保持 怀疑 。 就 是 说 时 刻 保持 对 别 
人 的 论文 或 者 研究 成 果 保 持 警 惕 与 怀疑 ， 要 通过 自己 的 研究 与 测试 来 进行 模型 选择 ， 
这 样 才能 得 到 比较 正确 的 结论 。 


e be blind: avoid making modeling decision by data 
e be suspicious: interpret research results (including your own) by 


proper feeling of contamination 
Pq, Power of Three 


本 小 节 ， 我 们 对 16 节 课 做 个 简单 的 总 结 ， 用 ' 三 的 威力 ”进行 概括 。 因 为 课程 中 我 们 介 
绍 的 很 多 东西 都 与 三 有 关 。 


首先 ， 我 们 介绍 了 跟 机 器 学 习 相 关 的 三 个 领域 : 





e Data Mining 
e Artificial Intelligence 


e Statistics 







Data Mining Artificial Intelligence 1 Statistics 































* use (huge) data * compute * use data to make 
to find property something that inference about 
that is interesting shows intelligent an unknown 

behavior process 

e difficult to « ML is one e statistics contains 
distinguish ML possible route to many useful tools 
and DM in reality realize Al for ML 





我 们 还 介绍 了 三 个 理论 保证 : 
e Hoeffding 


e Multi-Bin Hoeffding 
e VC 


Hoeffding Multi-Bin Hoeffding 
















P[BAD] 
< 2exp(—2cN) 


P[BAD] 
< 2Mexp(—2c7N) 


P[BAD] 
< 4mj(2N)expy...) 










* all H 


e useful for 
training 


e one hypothesis 


e useful for 
verifying/testing 


* M hypotheses 


e useful for 
validation 






然后 ， 我 们 又 介绍 了 三 种 线性 模型 : 


e PLA/pocket 
e linear regression 


e logistic regression 





PLA/pocket linear regression logistic regression 


h(x) = sign(s) h(x) = 6(s) 





















friendly err = squared 
(easy to minimize) 
minimize analytically 


plausible err = CE 
(maximum likelihood) 
minimize iteratively 


plausible err = 0/1 
(small flipping noise) 
minimize specially 


同时 ， 我 们 介绍 了 三 种 重要 的 工具 : 


e Feature Transform 
e Regularization 


e Validation 










Feature Transform  ' Regularization | Validation 





Ew) > Ew) | Ew). K was) | E EU 
Ac(H) > avc(?to) di (4) y> Ozer (71. A) H > {97,---,9u} 


e by using more ”as by augmenting e by reserving K 


complicated YF ^ regularizer Q examples as ^. 
e lower Ein e lower err e fewer choices 


e higher dvc s higher En * fewer examples 


X ELA TS RTT T Ee EP: 
e Occam's Razer 
e Sampling Bias 
e Data Snooping 






Occam's Razer Sampling Bias Data Snooping 
simple is good class matches exam | honesty is best policy 









最 后 ， 我 们 未 来 机 器 学 习 的 方向 也 分 为 三 种 : 
e More Transform 


e More Regularization 


e Less Label 





More Transform 





- More Regularization | Less Label 


bagging decision tree support vector machine — neural network kernel 


AdaBoost aggregation sparsity autoencoder coordinate descent 


dual Uniform blending deep learning nearest neighbor decision stump 


kernel LogReg large-margin Prototype quadratic programming SVR 
GBDT PCA random forest Matrix factorization Gaussian kernel 
k-means OOB error RBF network” probabilistic SVM 


soft-margin 





五 、 总 结 


本 节 课 主要 介绍 了 机 器 学 习 三 个 重要 的 锦 宫 妙计 : Occam's Razor, Sampling Bias, 
Data Snooping。 并 对 《机 器 学 习 基 石 》 课 程 中 介绍 的 所 有 知识 和 方法 进行 “三 的 威 
力 ” 这 种 形式 的 概括 与 总 结 ,“ 三 的 威力 ”也 就 构成 了 坚固 的 机 器 学 习 基 石 。 


整个 机 器 学 习 基 石 的 课程 笔记 总 结 完毕 ! 后 续 将 会 推出 机 器 学 习 技 法 的 学 习 笔 记 ， 谢 
谢 ! 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 基石 》 课 程 





林 轩 田 《机 器 学 习 技 法 》 课 程 笔记 1 -- Linear Support Vector 


Machine 


VES: IEAA ARE: AI 有 道 (id: redstonewill) 


关于 台湾 大 学 林 轩 田 老师 的 《机 器 学 习 基 石 》 课 程 ， 我 们 已 经 总 结 了 16 节 课 的 笔记 。 这 里 附 上 基石 
第 一 节 课 的 博客 地 址 : 


人 台湾 大 学 林 轩 田 机 器 学 习 基石 课程 学 习 笔 记 1 -- The Learning Problem 


本 系列 同样 分 成 16 节 课 ， 将 会 介绍 《机 器 学 习 基 石 》 的 进 阶 版 《机 器 学 习 技 法 》， 更 深入 地 探讨 机 
器 学 习 一 些 高 级 算法 和 技巧 。 


Large-Margin Separating Hyperplane 


回顾 一 下 我 们 之 前 介绍 了 linear classification ， 对 于 线性 可 分 的 情况 ， 我 们 可 以 使 用 PLA/pocket 算 
法 在 平面 或 者 超 平面 上 把 正 负 类 分 开 。 


PLA/pocket 


A(x) = sign(s) 





(linear separable) 


plausible err = 0/1 
(small flipping noise) 
minimize specially 





linear (hyperplane) classifiers: 
h(x) = sign(w x) 


例如 对 平面 2D 这 种 情况 ， 我 们 可 以 找到 一 条 直线 ， 能 将 正 类 和 负 类 完全 分 开 。 但 是 ， 这 样 的 直线 
通常 不 止 一 条 ， 如 下 图 所 示 。 那 么 ， 下 图 中 的 三 条 分 类 线 都 能 将 数据 分 开 ， 但 是 哪 条 线 更 好 呢 ? 














这 三 条 直线 都 是 由 PLA/pocket 算 法 不 断 修 正 错 误 点 而 最 终 产生 的 ， 整 个 确定 直线 形状 的 过 程 是 随机 
的 。 单 从 分 类 效果 上 看 ， 这 三 条 直线 都 满足 要 求 ， 而 且 都 满足 VC bound 要 求 ， 模 型 复杂 度 人 (五 ) 
是 一 样 的 ， 即 具有 一 定 的 泛 化 能 力 。 但 是 ， 如 果 要 选择 的 话 ， 和 赁 第 一 感觉， 我 们 还 是 会 选择 第 三 条 
直线 ， 感 觉 它 的 分 类 效果 更 好 一 些 。 那 这 又 是 为 什么 呢 ? 


先 给 个 简单 解释 ， 一 般 情 况 下 ， 训 练 样本 外 的 测量 数据 应 该 分 布 在 训练 样本 附近 ， 但 与 训练 样本 的 
位 置 有 一 些 偏 差 。 若 要 保证 对 未 知 的 测量 数据 也 能 进行 正确 分 类 ， 最 好 让 分 类 直线 距离 正 类 负 类 的 
点 都 有 一 定 的 距离 。 这 样 能 让 每 个 样本 点 附近 的 圆 形 区 域 是 "安全 "的 。 圆 形 区 域 越 大 ， 表 示 分 类 直 
线 对 测量 数据 误差 的 容忍 性 越 高 ， 越 安全”。 








如 上 图 所 示 ， 左 边 的 点 距离 分 类 直线 的 最 小 距离 很 小 ， 它 的 圆 形 区 域 很 小 。 那 么 ， 这 种 情况 下 ， 分 
类 线 对 测量 数据 误差 的 容忍 性 就 很 差 仿 测量 数据 与 样本 数据 稍 有 偏差 ， 很 有 可 能 就 被 误 分 。 而 右边 
的 点 距离 分 类 直线 的 最 小 距离 更 大 一 些 ， 其 圆 形 区 域 也 比较 大 。 这 种 情况 下 ， 分 类 线 对 测量 数据 误 
差 的 容忍 性 就 相对 来 说 大 很 多 ,不 容易 误 分 。 也 就 是 说 ， 左 边 分 类 线 和 右边 分 类 线 的 最 大 区 别 是 对 
这 类 测量 误差 的 容忍 度 不 同 。 


那么 ， 如 果 每 一 笔 训练 资料 距离 分 类 线 越 远 的 话 ， 就 表示 分 类 型 可 以 忍受 更 多 的 测量 误差 

(noise) 。 我 们 之 前 在 《机 器 学 习 基 石 》 中 介绍 过 ，noise 是 造成 overfitting 的 主要 原因 ， 而 测量 误 
差 也 是 一 种 noise。 所 以 ， 如 果 分 类 线 对 测量 误差 的 容忍 性 越 好 的 话 ， 表 示 这 是 一 条 不 错 的 分 类 
线 。 那 么 ， 我 们 的 目标 就 是 找到 这 样 一 条 最 “健壮 "的 线 ， 即 距离 数据 点 越 远 越 好 。 













informal argument 


if (Gaussian-like) noise on future x z Xx»: 

X, further from hyperplane distance to closest X; 
<= tolerate more noise <= amount of noise tolerance 
<= more robust to overfitting <= robustness of hyperplane 


rightmost one: more robust 
because of larger distance to closest xn | 
上 面 我 们 用 圆 形 区 域 表示 分 类 线 能 够 容忍 多 少 误差 ， 也 就 相当 于 计算 点 到 直线 的 距离 。 距 离 越 大 ， 


表示 直线 越 胖 ”， 越 能 容 妨 误差， 距离 越 小 ， 表 示 直 线 越 “ 瘦 "， 越 不 能 容忍 误差 。 越 胖 越 好 ( 像 杨 
贵妃 那样 的 哦 ~) 。 

















如 何 定 义 分 类 线 有 多 胖 ， 就 是 看 距离 分 类 线 最 近 的 点 与 分 类 线 的 距离 ， 我 们 把 它 用 margin 表 示 。 分 
类 线 由 权重 w 决 定 ， 目 的 就 是 找到 使 margin 最 大 时 对 应 的 w 值 。 整 体 来 说 ， 我 们 的 目标 就 是 找到 这 
样 的 分 类 线 并 满足 下 列 条 件 : 


-e DXEM, My wT x, > 0 
。 margin 最 大 化 


max margin(w) 


subjectto every y,w!x, > 0 
margin(w) = „Min Ndistance(xn, w) 


Standard Large-Margin Problem 


要 让 margin 最 大 ， 即 让 离 分 类 线 最 近 的 点 到 分 类 线 距 离 最 大 ， 我 们 先 来 看 一 下 如 何 计算 点 到 分 类 线 
的 距离 。 


首先 ,我 们 将 权重 w (wo, w,- , wa ) 中 的 wo 拿 出 来 ， 用 b 表 示 。 同 时 省 去 x0 项 。 这 样 ， 





hypothesis 就 变 成 了 h(x) = sign(wT z + b). 


‘shorten’ x and w 


distance needs wo and (Wi,..., Wg) differently (to be derived) 
b = Wo 而 一 二 
| Wi . | x 
3 
W = : x = 
| Wd | Xd 





下 面 ， 利 用 图 解 的 方式 ， 详 细 推 导 如 何 计算 点 到 分 类 平面 的 距离 : 


want: distance(x, b, w), with hyperplane w7x' + b = 0 











consider x', x" on hyperplane 
Oo w/x--b,wix'- -b 
© w L hyperplane: 


wT (x" zu x) Ao 


vector on hyperplane 


© distance = project (x — x’) to L hyperplane 





distance(x, b, w) = I Iwi 一 一 (X 一 





如 上 图 所 示 ， 平 面 上 有 两 个 点 : x 和 x"。 因 为 这 两 个 点 都 在 分 类 平面 上 ， 所 以 它们 都 满足 : 
Tt +b=0 
we! +b=0 


同时 可 以 得 到 : wa’ = —b, w'z" = —b, QA: 


(x"-x") 是 平面 上 的 任 一 向 量 ，(x"-x") 与 w 内 积 为 0， 表 示 (x"-x) 垂 直 于 w， 那 么 w 就 是 平面 的 法 向 量 。 


现在 ， 知 要 计算 平面 外 一 点 x 到 该 平面 的 距离 ， 做 法 是 只 要 将 向 量 (x-x") 投 影 到 垂直 于 该 平面 的 方向 
( 即 w 方 向 ) 上 就 可 以 了 。 那 么 ， 令 (x"-x') 与 w 的 夹 角 为 9， 距 离 就 可 以 表示 为 : 





, (x — z')w 1 
distance(z,b,w) = |(x — z')cos(0)| = | ||z — z'|| - le-a = Tol” * — wg! 
代入 wz' = —b, 可 得 : 

1 
distance(x,b, w) = ——|w' a + b| 
||| 
点 到 分 类 面 (Separating Hyperplane) 的 距离 已 经 算出 来 了 。 基 于 这 个 分 类 面 ， 所 有 的 点 均 满 足 : 


Yn(w zn +b) > 0， 表 示 所 有 点 都 分 类 正确 ， 则 distance 公 式 就 可 以 变换 成 : 


1 
distance(x, b, w) = To ee m + b) 


那么 ， 我 们 的 目标 形式 就 转换 为 : 


max margin(b,w) 
b,w 
subjectto every yn(w’ x, + b) > 0 


对 上 面 的 式 子 还 不 容易 求解 ， 我 们 继续 对 它 进 行 简化 。. RATED? z 十 = 0 和 

3w77z + 3b = 0 其 实 是 一 样 的 。 也 就 是 说 ， 对 w 和 b 进 行 同 样 的 缩放 还 会 得 到 同一 分 类 面 。 所 以 ， 
为 了 简化 计算 ,我们 令 距 离 分 类 满 最 近 的 点 满足 办 , (W zn +b) — 1。 那 我 们 所 要 求 的 margin 就 
变 成 了 : 

i 


margin(b, w) = ju 


这 样 ， 目 标 形式 就 简化 为 : 


1 
‘ow i 
Subject to 


min yp(w'x, + b) = 1 
fiat N 


这 里 可 以 省 略 条 件 : yn (wx, +b) > 0, RARER AY, (wl z + b) = 1 必然 满足 大 于 零 的 
条 件 。 我 们 的 目标 就 是 根据 这 个 条 件 ， 计 算 一 -的 最 大 值 。 


ful 
刚刚 我 们 讲 的 距离 分 类 满 最 近 的 点 满足 yn (wl zn +b) — 1， 也 就 是 说 对 所 有 的 点 满足 

Vo (w^ En +b) > 1。 另 外 ， 因 为 最 小 化 问题 我 们 最 熟悉 也 最 好 解 ， 所 以 可 以 把 目标 二 最 大 化 
转化 为 计算 了 w7w 的 最 小 化 问题 





necessary constraints: y,(w!x, + b) > 1 for all n 







original constraint: minn-1 & Yn(WTXn + b) = 1 
want: optimal (b, w) here (inside) 





if optimal (b, w) outside, e.g. ys (w" x; + b) > 1.126 for all n 
—can scale (b, w) to “more optimal" (25, t$) (contradiction!) 


final change: max => min, remove V , add 3 


T 


min — jw/w 
b.w 





subjectto — yo(w" xs + b) > 1 for all n 








如 上 图 所 示 ， 最 终 的 条 件 就 是 yn (W En 十 b) 2 1， 而 我 们 的 目标 就 是 最 小 化 ww 值 。 


Support Vector Machine 


现在 ,条 件 和 目标 变 成 : 


min iw’'w 
b,w 


subjectto ”ynm(wzZxa+b > 1 for all n 


现在 ， 举 个 例子 ,假如 平面 上 有 四 个 点 ， 两 个 正 类 ， 两 个 负 类 : 








不 同 点 的 坐标 加 上 条 件 yn (w zn +b) > 1， 可 以 得 到 : 












0 0 x zh. 
iue] aod -2w,-2wa-b21 (ii) 
2 0 y 2w +b>1 (ii) 
3 0 +1 3w, +b>1 (iv) 


.1 60 & (i) = met 
(ii) & (ii) => woz-1 
e (wv; = 1, wo = —1,5 = —1) at lower bound and satisfies (i) — (iv) 


|= wwa! 


最 终 ， 我 们 得 到 的 条 件 是 : 


而 我 们 的 目标 是 : 


目标 最 小 值 为 {f， 即 w1 = 1, w = —1, b = 一 1， 那 么 这 个 例子 就 得 到 了 最 佳 分 类 面 的 解 ， 如 图 


fim, Eimargin(b,w) = +. = 分 类 面 的 表达 式 为 : 


= 

l| v2° 
qi — T2} — 1=0 
最 终 我 们 得 到 的 矩 的 表达 式 为 : 
gsvM (v) = sign(z1 — zə — 1) 

Support Vector Machine(SVM) 这 个 名 字 从 何 而 来 ? 为 什么 把 这 种 分 类 面 解法 称 为 支持 向 量 机 呢 ? 
这 是 因为 分 类 面 仪 仪 由 分 类 面 的 两 边 距离 它 最 近 的 几 个 点 决定 的 ， 其 它 点 对 分 类 面 没 有 影响 。 决 定 
分 类 面 的 几 个 点 称 之 为 支持 向 量 (Support Vector) ， 好 比 这 些 点 "支撑 "着 分 类 面 。 而 利用 Support 
Vector 得 到 最 佳 分 类 面 的 方法 ， 称 之 为 支持 向 量 机 (Support Vector Machine) 。 


下 面 介绍 SVM 的 一 般 求 解 方法 。 先 写 下 我 们 的 条 件 和 目标 : 


min BW Ww 
b.w 


subjectto yn(w! Xn + b) > 1 for all n 


这 是 一 个 典型 的 二 次 规划 问题 ， 即 Quadratic Programming (QP) 。 因 为 SVM 的 目标 是 关于 w 的 二 
次 国 数 ， 条 件 是 关于 w 和 b 的 一 次 函数 ， 所 以 ， 它 的 求解 过 程 还 是 比较 容易 的 ， 可 以 使 用 一 些 软件 

(例如 Matlab) 自 带 的 二 次 规划 的 库 函 数 来 求解 。 下 图 给 出 SVM 与 标准 二 次 规划 问题 的 参数 对 应 关 
系 : 





optimal (b, w) = optimal u + QP(Q. p, A, c) 














min iwl 
b.w 


i Lx T 
w min zu Qu+p u 


u 
subjectto alu » cm, 
br mats... 


subjectto — yn(w’ xn 十 b) > 1, 


9 2... ,M 











T 
objective function: u=| 。 | Qu I 0; ie jie = 05.4 


constraints: af =yn[1 x] |;c,=1;M=N 





那么 ， 线 性 SVM 算法 可 以 总 结 为 三 步 : 


。 计算 对 应 的 二 次 规划 参数 Q, p, A, c 
。 根据 二 次 规划 库 函 数 ， 计 算 b，w 
。 将 b 和 w 代 入 9gsvM ， 得 到 最 佳 分 类 面 





Linear Hard-Margin SVM Algorithm 


0 0 
0 Q= P 0, 12 [ip = ossa: x, | - 1 


b 
W 





e| 


© return b & w as gg 


| + QP(Q, p, A, c) 


这 种 方法 称 为 Linear Hard-Margin SVM Algorithm。 如 果 是 非 线 性 的 ， 例 如 包含 x 的 高 阶 项 ， 那 么 可 
以 使 用 我 们 之 前 在 《机 器 学 习 基 石 》 课 程 中 介绍 的 特征 转换 的 方法 ， 先 作 zn = 再 (Zn ) 的 特征 变 
换 ， 从 非 线性 的 x 域 映射 到 线性 的 z 域 空间 ， 再 利用 Linear Hard-Margin SVM Algorithm 了 求解 即 可 。 


Reasons behind Large-Margin Hyperplane 


从 视觉 和 直觉 的 角度 ， 我 们 认为 Large-Margin Hyperplane 的 分 类 效果 更 好 。SVM 的 这 种 思想 其 实 

与 我 们 之 前 介绍 的 机 器 学 习 非 常 重要 的 正则 化 regularization 思 想 很 类 似 。regularization 的 目标 是 将 
瓦 im 最 小 化 ， 条 件 是 ww < C; SVM 的 目标 是 w w 最 小 化 ， 条 件 是 yn (when +b) >1, BOR 

WET E; = 0。 有 趣 的 是 ，regularization 与 SVM 的 目标 和 限制 条 件 分 别 对 调 了 。 其 实 ， 考 虑 的 内 容 

是 类 似 的 ， 效 果 也 是 相近 的 。SVM 也 可 以 说 是 一 种 weight-decay regularization， 限 制 条 件 是 

Ein = 0, 








constraint 
w'wzc 
n — 0 [and more] 


minimize 










regularization 
SVM 





E, 


从 另 一 方面 来 看 ，Large-Margin 会 限制 Dichotomies 的 个 数 。 这 从 视觉 上 也 很 好 理解 ， 假 如 一 条 分 
类 面 越 " 胖 "， 即 对 应 Large-Margin， 那 么 它 可 能 shtter 的 点 的 个 数 就 可 能 越 少 : 






Apo: like PLA => shatter ‘general’ 3 inputs 


Aj.126: more strict than SVM => cannot shatter any 3 inputs 


PN E 


之 前 的 《机 器 学 习 基石 》 课 程 中 介绍 过 ，Dichotomies 与 VG_Dimension 是 紧密 联系 的 。 也 就 是 说 如 
果 Dichotomies 越 少 ， 那 么 复杂 度 就 越 低 ， 即 有 效 的 VC Dimension 就 越 小 ， 得 到 Bow 7 Ein, iZ 
化 能 力 强 。 








下 面 我 们 从 概念 的 角度 推导 一 下 为 什么 dichotomies 越 少 ，VC Dimension 就 越 少 。 首 先 我 们 考虑 一 
下 Large-Margin 演 算法 的 VC Dimension Edy (Ap)。dwc( 4) 与 数据 有 关 ， 而 我 们 之 前 介绍 的 
dvc 与 数据 无 关 。 


假如 平面 上 有 3 个 点 分 布 在 单位 圆 上 ， 如 果 Margin 为 0， 即 p — 0， 这 条 细 细 的 直线 可 以 很 容易 将 圆 


上 任意 三 点 分 开 (shatter) ， 就 能 得 到 它 的 dy。 二 3. Wp > 这 条 粗 粗 的 线 无 论 如 何 都 不 
能 将 圆 上 的 任 一 三 点 全 完 分 开 (no shatter) ， 因 为 圆 上 必然 至 少 存在 两 个 点 的 距离 小 于 V3， 那 么 


其 对 应 d 的 du < 3. 


dc(As,) when ¥ = unit circle in R? 







e p= 0: just perceptrons (ovc = 3) 


e p> x3: cannot shatter any 3 inputs 
(avc < 3) 
—some inputs must be of distance < V3 


那么 ,一 般 地 ， 在 d 维 空间 ， 当 数据 点 分 布 在 半径 为 R 的 超 球 体内 时 ， 得 到 的 dv (A, ) 满 足下 列 不 等 
式 : 





generally, when X in radius-R hyperball: 


dyc(.A.) € min (4.2) +1< d+1 


yc (perceptrons) 


之 前 介绍 的 Perceptrons 的 VC Dimension 为 d+1， 这 里 得 到 的 结果 是 Large-Margin 演 算法 的 
dvc(Ap) € d 十 1。 所 以 ， 由 于 Large-Margin， 得 到 的 dichotomies 个 数 减 少 ， 从 而 VC Dimension 
也 减少 了 。VC Dimension 减 少 降低 了 模型 复杂 度 ， 提 高 了 泛 化 能 力 。 

ca gt 


‘= 


本 节 课 主要 介绍 了 线性 支持 向 量 机 (Linear Support Vector Machine) 。 我 们 先 从 视觉 角度 出 发 ， 
希望 得 到 一 个 比较 “ 胖 " 的 分 类 面 ， 即 满足 所 有 的 点 距离 分 类 面 都 尽 可 能 远 。 然 后 ， 我 们 通过 一 步 步 
推导 和 简化 ， 最 终 把 这 个 问题 转换 为 标准 的 二 次 规划 (QP) 问题 。 二 次 规划 问题 可 以 使 用 Matlab 
等 软件 来 进行 求解 ， 得 到 我 们 要 求 的 w 和 b， 确 定 分 类 面 。 这 种 方法 背后 的 原理 其 实 就 是 减少 了 
dichotomies 的 种 类 ， 减 少 了 有 效 的 VC Dimension 数 量 ， 从 而 让 机 器 学 习 的 模型 具有 更 好 的 泛 化 能 
力 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 





林 轩 田 《 机 器 学 习 技 法 》 课 程 笔记 2 -- Dual Support 


Vector Machine 


VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 线性 支持 向 量 机 (Linear Support Vector Machine) , Linear 
SVM 的 目标 是 找 出 最 “ 胖 " 的 分 割 线 进 行 正 负 类 的 分 离 ， 方 法 是 使 用 二 次 规划 来 求 出 分 
类 线 。 本 节 课 将 从 另 一 个 方面 入 手 ， 研 究 对 偶 支 持 向 量 机 (Dual Support Vector 
Machine) ， 尝 试 从 新 的 角度 计算 得 出 分 类 线 ， 推 广 SVM 的 应 用 范围 。 


Motivation of Dual SVM 


首先 ， 我 们 回顾 一 下 ， 对 于 非 线性 SVM， 我 们 通常 可 以 使 用 非 线 性 变换 将 变量 从 x 域 
转换 到 z 域 中 。 然 后 ， 在 z 域 中 ， 根 据 上 一 节 课 的 内 容 ; 使 用 线性 SVM 解决 问题 即 可 。 
上 一 节 课 我 们 说 过 ， 使 用 SVM 得 到 large-margin ” 减少 了 有 效 的 VC Dimension， 限 制 
了 模型 复杂 度 ; 另 一 方面 ， 使 用 特征 转换 让 目的 是 让 模型 更 复杂 ， 减 小 BB,。 所 以 
说 ， 非 线性 SVM 是 把 这 两 者 目的 结合 起 来 ， 平 衡 这 两 者 的 关系 。 那么， 特征 转换 下 ， 
求解 QP 问题 在 z 域 中 的 维度 设 为 4 Fl1， 如 果 模型 越 复杂 ， 则 d 十 1 越 大 ， 相 应 求解 
这 个 QP 问题 也 变 得 很 困难 。 当 4 无 限 大 的 时 人 息 ， 问 题 将 会 变 得 难以 求解 ， 那 么 有 没有 
什么 办 法 可 以 解决 这 个 问题 呢 ? 一 种 方法 就 是 使 SVM 的 求解 过 程 不 依赖 4 ， 这 就 是 我 
们 本 节 课 所 要 讨论 的 主要 内 容 。 


Non-Linear Hard-Margin SVM 





0 o7 
= d ^ = ~ x 
min {ww OQ | > | 05.43 
S.t yn(W' Zn +b)>1, b u 
@(xn) o M + QP(Q. p. A, c) 


for nz 1,2...., N " 
© return b c R & w c E? with 


gsw(X) = sign(w! (x) + b) 





比较 一 下 ， 我 们 上 一 节 课 所 讲 的 Original SVM 二 次 规划 问题 的 变量 个 数 是 d +1, 6 PE 





个 限制 条 件 ;， 而 本 节 课 ， 我 们 把 问题 转化 为 对 偶 问 题 (Equivalent SVM) ， 同 样 是 二 
次 规划 ， 只 不 过 变量 个 数 变 成 N 个 ， 有 N+1 个 限制 条 件 。 这 种 对 偶 SVM 的 好 处 就 是 问 
题 只 跟 N 有 关 ， 与 4 无 关 ， 这 样 就 不 存在 上 文 提 到 的 当 d 无 限 大 时 难以 求解 的 情况 。 











Original SVM 
(convex) QP of 
。d 二 1variables 
e N constraints 






(convex) QP of 
e N variables 
* N — 1 constraints 


如 何 把 问题 转化 为 对 偶 问 题 (Equivalent SVM) ， 其 中 的 数学 推导 非常 复杂 ， 本 文 不 
做 详细 数学 论证 ， 但 是 会 从 概念 和 原理 上 进行 简单 的 推导 。 


还 记得 我 们 在 《机 器 学 习 基石 》 课 程 中 介绍 的 Regularization 中 ， 在 最 小 化 Bi 的 过 程 
中 ， 也 添加 了 限制 条 件 : wlw < C。 我 们 的 求解 方法 是 引入 拉 格 朗 日 因子 和 ， 将 有 
条 件 的 最 小 化 问题 转换 为 无 条 件 的 最 小 化 问题 : 
min Eavg (WwW) = Ein(w) + Aw w, 最 终 得 到 的 w 的 最 优化 解 为 : 

V Ein (w) + ^u —0 
所 以 ， 在 regularization 问 题 中 ， 入 是 已 知 常量 ， 求 解 过 程 变 得 容易 。 那 么 ， 对 于 dual 
SVM 问题 ， 同 样 可 以 引入 入 ， 将 条 件 问 题 转换 为 非 条 件 问题 ， 只 不 过 入 是 未 知 参数 ， 
且 个 数 是 N， 需 要 对 其 进行 求解 。 













Regularization by 
Constrained-Minimizing Ein 


Regularization by 
<> Liu gm 
T 


min Ej (w) s.t. ww < C min Eaug(W) = Ein(W) + Aw W 


e C equivalent to some 入 > 0 by checking optimality condition 
V Ein(w) + jw =0 
e regularization: view \ as given parameter instead of C, and 


solve ‘easily’ 


e dual SVM: view A's as unknown given the constraints, and solve 
them as variables instead 








如 何 将 条 件 问题 转换 为 非 条 件 问题 ”上 一 节 课 我 们 介绍 的 SVM 中 ， 目 标 是 : 
min sw w, RIFE: yn (wiz, +b) > 1, forn=1,2,---,N. BS, 我们 
令 拉 格 明日 因子 为 ww (Xal Fregularization) ， 构 造 一 个 国 数 : 


1 N 
L(b,w,a) = Fw w + 》 an(1— yn (w zn +b)) 


n=1 


这 个 函数 右边 第 一 项 是 SVM 的 目标 ， 第 二 项 是 SVM 的 条 件 和 拉 格 朗 日 因子 ay AR 
只 。 我 们 把 这 个 函数 称 为 拉 格 朗 日 函数 ， 其 中 包含 三 个 参数 : b，w，am。 


with Lagrange multipliers XK an, 


min  iw'w 
bw 
T L(b, W, a) = 
S.t. yn(W zn+b)>=1, N 
forn=1,2,...,N 3W w+ Doon(1 — yn(W zn + b) 
— ed rene 
objective constraint 





下 面 ， 我 们 利用 拉 格 朗 日 函数 ， 把 SVM 构造 成 一 个 非 条 件 问题 : 


SVM 三 min ( max (b. W, a)) = min (~ if violate ; iww if feasible 
bw Vall an>0 bw 


ee 


* any ‘violating’ (b, w): max, (n 十 22npan(Some positive) ) — co 





s any ‘feasible’ (b, w): max (c 十 ?22nan(all non-positive) ) =O 
all an^ 


该 最 小 化 问题 中 包含 了 最 大 化 问题 ， 怎 么 解释 呢 ? 首先 我 们 规定 拉 格 朗 日 因子 

an > 0， 根 据 SVM 的 限定 条 件 可 得 : (1 一 yn (wl zn 4- b)) < 0， 如 果 没 有 达到 最 
优 解 ， 即 有 不 满足 (1 一 ys (wl zn 4- b)) < 0 的 情况 ， 因 为 Qa, > 0， 那 么 必然 有 
Yo, 04 (1 — yn (w’ zn 4- b)) > 0。 对 于 这 种 大 于 零 的 情况 ， 其 最 大 值 是 无 解 的 。 
如 果 对 于 所 有 的 点 ， 均 满足 (1 一 加 (wz +b)) < 0， 那 么 必然 有 

Xn 0n (1 — ys (w zn 4- b)) € 0, WHY, an (1 — ys (wT zn + 6)) =0 时 ， 其 
有 最 大 值 ， 最 大 值 就 是 我 们 SVM 的 目标 : iww, 因此 ， 这 种 转化 为 非 条 件 的 SVM 
构造 浮 数 的 形式 是 可 行 的 。 





Lagrange Dual SVM 


现在 ,我 们 已 经 将 SVM 间 题 转化 为 与 拉 格 朗 日 因子 Q, 有 关 的 最 大 最 小 值 形式 。 已 知 
an > 0， 那 么 对 于 任何 固定 的 w' ， 且 a/，> 0, 一定 有 如 下 不 等 式 成 立 : 


for any fixed a’ with all o7, > 0, 


min ( max £(b.w.o)) > min Z(b, w, o") 
bw Vall an>0 b.w 


对 上 述 不 等 式 右边 取 最 大 值 ， 不 等 式 同样 成 立 : 


for best a > 0 on RHS, 


min ( max Clbw, a) > max min C(b,w,ca ) 
bw Vall an>0 allan’ >0 bw 


me 
Lagrange dual problem 
上 述 不 等 式 表明 ， 我 们 对 SVM 的 min 和 Fax 做 了 对 调 ， 满 足 这 样 的 关系 ， 这 叫做 


Lagrange dual problem。 不 等 式 右 边 是 SVM 问题 的 下 界 ， 我 们 接 下 来 的 目的 就 是 求 出 
这 个 下 界 。 


已 知之 是 一 种 弱 对 偶 关 系 坟 在 二 次 规划 QP 间 题 中 ， 如 果 满 足以 下 三 个 条 件 : 


。 函数 是 凸 的 (convex primal) 
。 函数 有 解 (feasible primal) 


© 条 件 是 线性 的 (linear constraints) 


那么 ， 上 述 不 等 式 关 系 就 变 成 强 对 偶 关 系 ， 过 变 成 =， 即 一 定 存在 满足 条 件 的 解 
(b, w, a)， 鸽 等 式 左边 和 右边 都 成 立 ，SVM 的 解 就 转化 为 右边 的 形式 。 


经 过 推导 ，SVM 对 偶 问题 的 解 已 经 转化 为 无 条 件 形式 : 





N 
人 T 
max | minzw'w x»(1 — Wz 
all pee b.w 2 F 2. anl yn( n 2 b)) 


£(b,w,a) 


Bh, bxUESEBEBBXHUTEBEELBSÉUL (b, w, a) 计 算 最 小 值 。 那 么 根据 梯度 下 降 
算法 思想 : 最 小 值 位 置 满足 梯度 为 零 。 首 先 ， 令 L(b, w, oj) 对 参数 pb 的 梯度 为 零 : 


OL(b, w, a) Ax 


也 就 是 说 ， 最 优 解 一 定 满足 站 站 | Qn yn 二 0。 那 么 ， 我 们 把 这 个 条 件 代入 计算 max 
条 件 中 (与 Qa。> 0 同 为 条 件 ) ， 并 进行 化 简 : 


N 
a ee g T 
max min 5W w+ an(1 — yn(W Zz 


n=1 


这 样 ，SVM 表 达 式 消去 了 b， 问 题 化 简 了 三 些 。 然 后 ， 再 根据 最 小 值 思想 ， 仿 
L(b, w, Q) 对 参数 w 的 梯度 为 零 : 


也 就 是 说 ， 最 优 解 一 定 满足 w — | Qn yzn。 那 么 ， 同 样 我 们 把 这 个 条 件 代 入 并 
进行 化 简 : 





N 
jy T 
Iw w+) an 一 W w) 


max 
all an>0, ynon=0,W=) anynZn n=1 


N N 
1 2 
max 一 去 Q Z = a 

ashe S | 2 nynZn|| 2. n 
这 样 ，SVM 表 达 式 消去 了 w， 问 题 更 加 简化 了 。 这 时 候 的 条 件 有 3 个 : 

e all o4, > 0 

: > Qnyn =Q 

e W= Dn Qn Un £n 
SVM 简 化 为 只 有 ow 的 最 佳 化 问题 ， 即 计算 满足 上 述 三 个 条 件 下 ， 函 数 
B z | x On Un Zn | l T ra om 最 小 值 时 对 应 的 oo 是 多 少 。 


总 结 一 下 ，SVM 最 佳 化 形式 转化 为 只 与 ac" 有 天 : 


N N 
1 2 
max — > QnynZnll + > jo 
all an>0,>> yno:n20,w—»; Oo nyn£n 2 | = nyn n|| E n 


其 中 ， 满 足 最 佳 化 的 条 件 称 之 为 Karush-Kuhn-Tucker(KKT): 


if primal-dual optimal (b, w, a), 
e primal feasible: yn(w7Zn + b) > 1 
e dual feasible: an > 0 
e dual-inner optimal: Y^ ynan = 0; W = Y anynzn 
e primal-inner optimal (at optimal all ‘Lagrange terms’ disappear): 


opn(1 — yn(w^ zs + b)) = 0 


—called Karush-Kuhn-Tucker (KKT) conditions, necessary for 
optimality [& sufficient here] 


在 下 一 部 分 中 ， 我 们 将 利用 KKT 条 件 来 计算 最 优化 问题 中 的 w， 进 而 得 到 b 和 w。 oem 
H H ; 





Solving Dual SVM 
上 面 我 们 已 经 得 到 了 dual SVM 的 简化 版 了 ， 接 下 来 ， 我 们 继续 对 它 进 行 一 些 优 化 。 首 
先 ， 将 max 问 题 转化 为 min 问 题 ， 再 做 一 些 条 件 整理 和 推导 ， 得 到 : 


standard hard-margin SVM dual 


N N N 
min 3 > T PAT O LE — a On 
n=1 m=1 n=1 
N 
subject to os yan = 0; 
n=1 
ON 一 


(convex) QP of N variables & N + 1 constraints, as promised 


显然 ， 这 是 一 个 convex 的 QP 问 题 ， 且 有 N 个 变量 ay, “限制 条 件 有 N+1 个 。 则 根据 上 
一 节 课 讲 的 QP 解 法 ， 找 到 Q，p，A，c 对 应 的 值 ， 用 软件 工具 包 进 行 求解 即 可 。 


optimal a = ? optimal a + QP(Q, p, A, c) 
min — 1Y Y dnynZIzm min  jo'Qa-cp'a 
ce n=1 m1 a 
x subjectto ala > ci 
T ir-12 
Hn 
N * Qnam = | 73/8. 1p Em 
subject to >》 nn = 0; EEE R 
n=l . 
an > 0, "E. — J; 8. = 


al = n-th unit direction 


Ma n=1.2,...7N 
e C> =0, C =0; 0-0 





求解 过 程 很 清晰 ， 但 是 值得 注意 的 是 ，gnwm = 如 yw Zn zm ， 大 部 分 值 是 非 零 的 ， 称 
为 dense。 当 N 很 大 的 时 候 ， 例 如 N=30000， 那 么 对 应 的 QDp 的 计算 量 将 会 很 大 ， 存 储 
空间 也 很 大 。 所 以 一 般 情况 下 ， 对 dual SVM 问题 的 矩阵 Qp ， 需 要 使 用 一 些 特殊 的 方 
法 ， 这 部 分 内 容 就 不 再 蓝 述 了 。 





"iq, = ynymz Zm, often non-zero 


e if N = 30,000, dense Qp (N by N symmetric) takes > 3G RAM 
e need special solver for 
* not storing whole Qo 
* utilizing special constraints properly 
to scale up to large N 





得 到 a 之后， 再 根据 之 前 的 KKT 条 件 ， 就 可 以 计算 出 w 和 b 了 。 首 先 利 用 条 件 
W = Y Qn yn zn 得 到 w， 然 后 利用 条 件 Qn (1 一 yn (wT zn 4- b)) 二 0， 取 任 一 
Qn 关 0 即 Q,>0 的 点 ， 得 到 1 — y, (wT zn -- b) — 0， 进 而 求 得 b = y, — wl zno 


KKT conditions 
if primal-dual optimal (b, w, a), 
e primal feasible: yn(w’Zn+ b) > 1 
e dual feasible: a, > 0 
e dual-inner optimal: 5^ ynan = 0; w = y anynzn 
e primal-inner optimal (at optimal all Lagrange terms’ disappear): 


an(1 — yn(W' zn +b)) = 0 (complementary slackness) 





* optimal a — optimal w? easy above! 
* optimal a => optimal b? a range from primal feasible & 
equality from comp. slackness if one an > 0 > b= y, — WwW’'zn 







值得 注意 的 是 ， 计 算 b 值 ，an>0 时 ， 有 4 (wl zn 十 b) = 1 成 立 。 

Yn (wt zn + b) = 1 正好 表示 的 是 该 点 在 SVM 分 类 线 上 ， 即 fat boundary。 也 就 是 
说 ,满足 Qy,>0 的 点 一 定 落 在 fat boundary 上 ， 这 些 点 就 是 Support Vector。 这 是 一 个 
非常 有 趣 的 特性 。 


Messages behind Dual SVM 


回忆 一 下 ， 上 一 节 课 中 ， 我 们 把 位 于 分 类 线 边界 上 的 点 称 为 support 





持 向 量 ， 但 是 满足 an>0 的 点 ， 一 定 是 支持 向 量 。 


e on boundary: ‘locates’ fattest hyperplane; 
others: not needed 

e examples with an > 0: on boundary 

* call a, > 0 examples (Zn, Yn) 
support vectors [candidates] 

e SV (positive an) 

C SV candidates (on boundary) 





SV 只 由 an >0 的 点 决定 ， 根 据 上 一 部 分 推导 的 w 和 b 的 计算 公式 ， 我 们 发 现 ，w 和 bf 仅 由 
SVv 即 an >0 的 点 决定 ， 简 化 了 计算 量 。 这 跟 我 们 上 一 节 课 介绍 的 分 类 线 只 由 "“ 胖 "边界 上 
的 点 所 决定 是 一 个 道理 。 也 就 是 说 ， 样 本 点 可 以 分 成 两 类 : 一 类 是 support vectors, 
通过 support vectors 可 以 求 得 fattest hyperplane; 另 一 类 不 是 support vectors, WR 
们 求 得 fattest hyperplane 没 有 影响 。 


N 
e only SV needed to compute WwW;W = Y` anynzn = 》 anynzn 
n=1 SV 


e only SV needed to compute b: b = yn — w7 Zp with any SV (Zp, yp) 


回 过 头 来 ， 我 们 来 比较 一 下 SVM 和 PLA 的 w 公 式 : 







N N 
wsw = 》 an(YnZn) Weta = > Bn(ynzn) 
n=1 n=1 


an from dual solution Bn by # mistake corrections 





我 们 发 现 ， 二 者 在 形式 上 是 相似 的 。wsvym 由 fattest hyperplane 边 界 上 所 有 的 SV 决 
定 ，wWwpL4 由 所 有 当前 分 类 错误 的 点 决定 。wsvym 和 wpz4 都 是 原始 数据 点 yr, zn 的 线 
性 组 合 形式 ， 是 原始 数据 的 代表 。 





w = linear combination of ynzn 


e also true for GD/SGD-based LogReg/LinReg when wo = 0 
e call w ‘represented’ by data 





总 结 一 下 ， 本 节 课 和 上 节 课 主要 介绍 了 两 种 形式 的 SVM ， 一 种 是 Primal Hard-Margin 
SVM， 另 一 种 是 Dual Hard Margin SVM, Primal Hard-Margin SVM 有 d 十 1 个 参 
数 ， 有 N 个 限制 条 件 。 当 d 十 1 很 大 时 ， 求 解困 难 。 而 Dual Hard Margin SVM 有 N 个 
参数 ， 有 N+1 个 限制 条 件 。 当 数据 量 N 很 大 时 ， 也 同样 会 增 大 计算 难度 。 两 种 形式 都 
能 得 到 w 和 b， 求 得 fattest hyperplane。 通 常情 况 下 ， 如 果 N 不 是 很 大 ， 一 般 使 用 Dual 
SVM 来 解决 问题 。 


Primal Hard-Margin SVM Dual Hard-Margin SVM 


min }3w!w 
bw 
sub. to y,(w!’z,+b) » 1, 


or = aN 
e d+ 1 variables, 
N constraints , 
—suitable when d +1 small 
e physical meaning: locate 
specially-scafed (b, w) 


min Ta Qoa — 1'a 
s.t. ya zi 
Os = UNE n= 1:22... N 
e N variables, 


N + 1 simple constraints 
—suitable when N small 


* physical meaning: locate 
SVS (Zn, Yn) & their an 





both eventually result in optimal (b, w) for fattest hyperplane 
gsvw(x) = sign(w! (x) + b) 


这 节 课 提出 的 Dual SVM 的 目的 是 为 了 避免 计算 过 程 中 对 vd 的 依赖 ， 而 只 与 N 有 关 。 但 
是 ，Dual SVM 是 否 真 的 消除 了 对 d 的 依赖 呢 ? 其 实 并 没有 。 因 为 在 计算 

qnm = Ynym 名 zm 的 过 程 中 ， 由 z 向 量 引 入 了 d ， 实 际 上 复杂 度 已 经 隐藏 在 计算 过 程 
中 了 。 所 以 ， 我 们 的 目标 并 没有 实现 。 下 一 节 课 我 们 将 继续 研究 探讨 如 何 消除 对 d 的 
依赖 。 





min za Qoa = 
subjectto y!’a=0; 
04:20 A= 1,2... N 
e N variables, N + 1 constraints: no dependence on d? 


* Qnm = Yn yu. Zm: inner product in R9 
—O(d) via naive computation! 


总 结 


本 节 课 主要 介绍 了 SVM 的 另 一 种 形式 : Dual SVM。 我 们 这 样 做 的 出 发 点 是 为 了 移 除 
计算 过 程 对 d 的 依赖 。Dual SVM 的 推导 过 程 是 通过 引入 拉 格 朗 日 因子 w， 将 SVM 转化 
为 新 的 非 条 件 形式 。 然 后 ， 利 用 QP， 得 到 最 佳 解 的 拉 格 朗 日 因子 a。 表 通过 KKT 条 
件 ， 计 算得 到 对 应 的 w 和 b。 最 终 求 得 fattest hyperplane; 下 一 节 课 ， 我 们 将 解决 Dual 
SVM 计算 过 程 中 对 qd 的 依赖 问题 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 式 机 器 学 习 技 法 》 课 程 
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Machine 


VES: 红色 石头 。 公众 号 : AI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 SVM 的 对 偶 形 式 ， 即 dual SVM, Dual SVM 也 是 一 个 二 次 规划 问题 ， 可 以 用 QP 
来 进行 求解 。 之 所 以 要 推导 SVM 的 对 偶 形式 是 因为 : 首先 ， 它 展示 了 SVM 的 几何 意义 ; 然后， 从 计算 
上 ， 求 解 过 程 "好 像 " 与 所 在 维度 d 无关， 规避 了 d 很 大 时 难以 求解 的 情况 。 但 是 ， 上 节 课 的 最 后 ， 我 们 
也 提 到 dual SVM 的 计算 过 程 其 实 跟 d 还 是 有 关系 的 。 那 么 ， 能 不 能 完全 摆脱 对 d 的 依赖 ， 从 而 减少 
SVM 计算 量 呢 ?7 这 就 是 我 们 本 节 课 所 要 讲 的 主要 内 容 。 


Kernel Trick 


我 们 上 节 课 推导 的 dual SVM 是 如 下 形式 : 


half-way done: 
min la Qva -ia 
subjectto — y'a = 0; 
oy P 0,for n2 1,2,...,N 


© Qnm = ynymZ] zg: inner product in RË 
e need: zTzm = (X)! ®(Xm) calculated faster than O(d) 


其 中 Q 是 拉 格 朗 日 因子 ， 共 N 个 、 这 是 我 们 要 求解 的 ， 而 条 件 共 有 N+1 个 。 我 们 来 看 向 量 Qp 中 的 
Qnm 二 Ynym 名 zm， 看 似 这 个 计算 与 4 无 关 ， 但 是 交 zm 的 内 积 中 不 得 不 引入 d 。 也 就 是 说 ， 如 果 d 
很 大 ， 计 算 交 2 的 复杂 度 也 会 很 高 ， 同 样 会 影响 QP 问 题 的 计算 效率 。 可 以 说 ，qn m = Ynym 2 Zm 
这 一 步 是 计算 的 瓶颈 所 在 。 
其 实 问题 的 关键 在 于 交 zj, 内 积 求解 上 。 我 们 知道 ，z 是 由 x 经 过 特征 转换 而 来 : 

zm = Brn) (zm) 
如 果 从 x 空间 来 看 的 话 ，2z zm 分 为 两 个 步骤 : 1. 进行 特征 转换 理 (z, ) 和 更 (zm ); 2. 计算 更 (zn) 与 
亚 (zm ) 的 内 积 。 这 种 先 转 换 再 计算 内 积 的 方式 ， 必 然 会 引入 d 参数 ， 从 而 在 d 很 大 的 时 候 影响 计算 速 
度 。 那 么 ， 若 把 这 两 个 步骤 联合 起 来 ， 是 否 可 以 有 效 地 减 小 计算 量 ， 提 高 计算 速度 呢 ? 


我 们 先 来 看 一 个 简单 的 例子 ， 对 于 二 阶 多 项 式 转换 ， 各 种 排列 组 合 为 : 





2nd order polynomial transform 
@o(X) = (1, X4, XD, . .., X9, NF 436, ..., XX, NOM, 2G, . . . MOXY, - -., NF) 
—include both x; X2 & xx for ‘simplicity’ :-) 


这 里 提 一 下 ， 为 了 简单 起 见 ， 我 们 把 zo = 1] 包含 进来 ， 同 时 将 二 次 项 zl Z? 和 2zZ2? x1 也 包含 进来 。 转 换 
之 后 再 做 内 积 并 进行 推导 ， 得 到 : 


中 z(X) 62(x) 


1 + Sov Boana 


i=l j=1 


一 ios NT S^ xx 


U— CL 
= 1+x’'x x’ + (x! x (xx 3) 


其 中 z7 z' BEERE. A, Bo (x) 58 (a ) 的 内 积 的 复杂 度 由 原来 的 O(d2 ) 变 成 
O(qd)， 只 与 x 空间 的 维度 d 有 关 ， 而 与 z 空 间 的 维度 d 无 关 ， 这 正 是 我 们 想 要 的 ! 


至 此 ， 我 们 发 现 如 果 把 特征 转换 和 z 空 间 计算 内 积 这 两 个 步骤 合并 起 来 ， 有 可 能 会 简化 计算 。 因 为 我 们 
只 是 推导 了 二 阶 多 项 式 会 提高 运算 速度 ， 这 个 特例 并 不 具有 一 般 推 论 性 。 但 是 ， 我 们 还 是 看 到 了 希 
È 

望 。 


我 们 把 合并 特征 转换 和 计算 内 积 这 两 个 步骤 的 操作 叫做 Kernel Function， 用 大 写字 母 K 表 示 。 例 如 刚刚 
讲 的 二 阶 多 项 式 例 子 ， 它 的 kernel function: 


Ka(z, 2’) = (az)? (a!) 
Ke; (x, 2’) =1+ (a? a’) + (Tx)? 


有 了 kernel function 之 后 ， 我 们 来 看 看 它 在 SVM 里 面 如 何 使 用 。 在 dual SVM 中 ， 二 次 项 系数 qn, m PBZ 
的 内 积 计算 ， 就 可 以 用 kernel function 蔡 换 : 


Qn,m = Un Um Z1 Zm 一 3a Um K (Tn, Em) 
所 以 ， 直 接 计算 出 有 K(x, Zm )， 表 代入 上 式 ， 就 能 得 到 gq wm 的 值 。 
qn,m 值 计算 之 后 ， 就 能 通过 QP 得 到 拉 格 朗 日 因子 Q,。 然 后 ， 下 一 步 就 是 计算 b ( 取 Qw,>0 的 点 ， 即 
SV) ，b 的 表达 式 中 包含 zZ， 可 以 作 如 下 推导 : 


N 
b= Us 一 wl Zs = Ys 一 rosas = Ys 一 > onyn (Kos, zs)) 
n=1 


这 样 得 到 的 b 就 可 以 用 kernel function 表 示 ， 而 与 z 空 间 无 关 。 
IREKE g sv m 可 以 作 如 下 推导 : 





N N 
gsvm (x) = sign(w’ (x) + b) = sign((》， On Zn). z +b) = sign(S ^ On Un (KK (tn, x)) +b) 
n=1 n=1 
至 此 ，dual SVM 中 我 们 所 有 需要 求解 的 参数 都 已 经 得 到 了 ， 而 且 整 个 计算 过 程 中 都 没有 在 z 空 间作 内 
只 ， 即 与 z 无 关 。 我 们 把 这 个 过 程 称 为 kernel trick， 也 就 是 把 特征 转换 和 计算 内 积 两 个 步骤 结合 起 来 ， 
用 kernel function 来 避免 计算 过 程 中 受 d 的 影响 ， 从 而 提高 运算 速度 。 


e quadratic coefficient qn m = ynymZn! Zm = YnymK (Xn, Xm) 
* optimal bias b? from SV (Xs, ys), 


T 
N N 

b—-y,—-w EA =a ( >》 anynzn) Z; = ys — N- anyn (K (xo. x.)) 
n=1 n=1 


* optimal hypothesis gsvm: for test input x, 


N 
gsw(x) = sign (w’(x)+b) = sign (> QnynK (Xn, X) + o) 


n=1 


那么 总 结 一 下 ， 引 入 kernel funtion 后 ，SVM 算 法 变 成 : 


Hard-Margin M Algorithm 





© Qnm = Yn¥mK (Xn, Xn); p = -YKY (A, C) for equ./bound constraints 
e 0$ zaa QP(Q;. P. A, c) 
© b-— (v = x anyak (nxs) ) with SV (Xs, ys) 
SV indices. n 
© return SVs and their p as well as b such that for new x, 
Osvu(X) = sign 2  agny;K(X;,X) - b 
SV indices n 


分 析 每 个 步骤 的 时 间 复 杂 度 为 : 


^ (1: time complexity O(N?) - (kernel evaluation) 
+ (2): QP with N variables and N + 1 constraints 
H (8) & (4): time complexity O(;+S\V) - (kernel evaluation) 


我 们 把 这 种 引入 kernel function 的 SVM 称 为 kernel SVM， 它 是 基于 dual SVM 推导 而 来 的 。kernel SVM 
同样 只 用 SV (an >0) 就 能 得 到 最 佳 分 类 面 ， 而 且 整 个 计算 过 程 中 摆脱 了 d 的 影响 ， 大 大 提高 了 计算 速 
度 。 

Polynomial Kernel 


我 们 刚刚 通过 一 个 特殊 的 二 次 多 项 式 导 出 了 相对 应 的 kernel， 其 实 二 次 多 项 式 的 kernel 形 式 是 多 种 的 , ps 





例如 ， 相 应 系数 的 放 缩 构成 完全 平方 公式 等 。 下 面 列举 了 几 种 常用 的 二 次 多 项 式 kernel 形 式 ,: 


Oo (xX) = (1,X1,...,%g,X7,...,X9) SS  Ko,(X.X) 2 1 - x'x' + (x'x'? 
p(x) = (1, V2X4,..., V2Xg, x2,...,. x9) &  Ko(x. X') = 1+ 2x7’ + (x'x')? 


$;(x) z V E ETT yx? 93” "9 yx) 


€ Ko(x,x’) = 1+ 2yx™x’ 十 ?2(XTX')2 


比较 一 下 ， 第 一 种 得 ; (z) ( 蓝 色 标记 ) MERD (x) (绿色 标记 ) 从 某 种 角度 来 说 是 一 样 的 ， 因 为 
都 是 二 次 转换 ， 对 应 到 同一 个 z 空 间 。 但 是 ， 它 们 系数 不 同 ， 内 积 就 会 有 差异 ， 那 么 就 代表 有 不 同 的 距 
离 ， 最 终 可 能 会 得 到 不 同 的 SVM margin。 所 以 ， 系 数 不 同 ， 可 能 会 得 到 不 同 的 SVM 分 界线 。 通 常情 况 
下 ,第 三 种 而 。 (z) (绿色 标记 ) 简单 一 些 ， 更 加 常用 。 


Ko(x,x’) = (1 + 7x’x’)? with y >0 
* K2: somewhat ‘easier’ to calculate than Ko, 


se 中 > and 中 >: equivalent power, 
different inner product 一 > different geometry 


不 同 的 转换 ， 对 应 到 不 同 的 几何 距离 ， 得 到 不 同 的 距离 ， 这 是 什么 意思 呢 ? 举 个 例子 ， 对 于 我 们 之 前 
介绍 的 一 般 的 二 次 多 项 式 kernel， 它 的 SVM margin 和 对 应 的 SV 如 下 图 (FR) 所 示 。 对 于 上 面 介绍 的 完 
全 平方 公式 形式 ， 自 由 度 7 = 0.001， 它 的 SVM margin 和 对 应 的 SV 如 下 图 (£) 所 示 。 比 较 发 现 ， 
这 种 SVM margin 比 较 简 单一 些 。 对 于 自由 度 7 = 1000, CAISVM margin 和 对 应 的 SV 如 下 图 (A) 
所 示 。 与 前 两 种 比较 ，margin 和 SV 都 有 所 不 同 。 

















(1 十 0.001X7X')2 1 十 XTX' 十 (X7X/)2 (1 十 1000X7X'/)2 


通过 改变 不 同 的 系数 ， 得 到 不 同 的 SVM margin 和 SV， 如 何 选择 正确 的 kernel， 非 常 重要 。 


归纳 一 下 ， 引 入 5 > 0 和 7y > 0， 对 于 Q 次 多 项 式 一 般 的 kernel 形 式 可 表示 为 : 





Ko(x,x’) = (C+?XTX')2 with y >0,¢ >0 
Ka(x, X") (C + 3x! x with y > 0,¢ > 0 


Kg(x. XY) = (C4x'x')? with y>0,¢>0 


所 以 ， 使 用 高 阶 的 多 项 式 kernel 有 两 个 优点 : 


。 得 到 最 大 SVM margin ，SV 数 量 不 会 太 多 ， 分 类 面 不 会 太 复杂 ， 防 止 过 拟 合 ， 减 少 复杂 度 
。 计算 过 程 避免 了 对 d 的 依赖 ， 大 大 简化 了 计算 量 。 


e embeds ® > specially with parameters 
(7,6) 

e allows computing large-margin polynomial 
classification without dependence on d 











SVM + Polynomial Kernel: Polynomial SVM ¥ 








10-th order polynomial 
with margin O.1 


顺便 提 一 下 ， 当 多 项 式 阶 数 Q=1 时 ， 那 么 对 应 的 kérhé| 就 是 线性 的 ， 即 本 系列 课程 第 一 节 课 所 介绍 的 内 
容 。 对 于 linear kernel， 计 算 方法 是 简单 的 ， 而 且 也 是 我 们 解决 SVM 问题 的 首选 。 还 记得 机 器 学 习 基 石 
课程 中 介绍 的 奥 卡 姆 剃刀 定律 (Occam's Razor) 吗 ? 


Gaussian Kernel 


刚刚 我 们 介绍 的 Q 阶 多 项 式 k8rnel 的 阶 数 是 有 限 的 ， 即 特征 转换 的 4 是 有 限 的 。 但 是 ， 如 果 是 无 限 多 维 
的 转换 再 (z) ， 是 否 还 能 通过 kernel 的 思想 ， 来 简化 SVM 的 计算 呢 ? 答案 是 肯定 的 。 


先 举 个 例子 ， 简 单 起 见 ， 假 设 原 空间 是 一 维 的 ， 只 有 一 个 特征 x， 我 们 构造 一 个 kernel function 为 高 斯 


K(z, 2’) = e G-2Y 


构造 的 过 程 正好 与 二 次 多 项 式 kernel 的 相反 ， 利 用 反 推 法 ， 先 将 上 式 分 解 并 做 泰勒 展开 : 





when x = (x), K(x.xX) =  exp(—(x — x’)?) 
=  exp(- (x)*)exp( — (x')*)exp(2xx') 
"E  exp(-Qo?)exp(- (X?) (È em 

i=0 


i! 


- 5 (eet-tobet- enm zo Z 09 


i=0 
= e(xe(x) 


with infinite dimensional ®(x) = exp(—x?) - (1, V 4x. V8. 7 j 





将 构造 的 K(x,x") 推 导 展 开 为 两 个 囊 (z) 和 秋 (Z“ ARR, Ep 


亚 (z) =e -( ER Es 


UE, SEHDSSIT O(c), O(c) SARS, CRASSA, Ad 是 无 限 的 。 
这 种 更 (z) 得 到 的 核 函 数 即 为 Gaussian kernel, 
更 一 般 地 ， 对 于 原 空间 不 止 一 维 的 情况 (d>1) ， 引 入 缩放 因子 ?7 念 -0， 它 对 应 的 Gaussian kernel 
达 式 为 : 

K(a,2") = ele 


那么 3| 入 了 高 斯 核 函 数 ， 将 有 限 维度 的 特征 转换 拓展 到 无 限 的 特征 转换 中 。 根 据 本 节 课 上 一 小 节 的 内 
容 ， 由 K， 计 算得 到 an 和 b， 进 而 得 到 矩 gsyxx。 将 其 中 的 核 函数 K 用 高 斯 核 浮 数 代替 ， 得 到 |: 


gsvi (a) = sign(》 amt K (tn, 2) +b) = sign(Y anye el") + b) 
SV SV 


通过 上 式 可 以 看 出 ，9syM 有 nm 个 高 斯 函数 线性 组 合 而 成 ， 其 中 n 是 SV 的 个 数 。 而 且 ， 每 个 高 斯 国 数 的 
中 心 都 是 对 应 的 SV。 通 常 我 们 也 把 高 斯 核 函 数 称 为 径 向 基 函 数 (Radial Basis Function, RBF) 。 


gsw(X) = sign (3o) 


SV 


sign (X a gy, exp (-lx RES xnll?) + b) 


SV 


e linear combination of Gaussians centered at SVs xn 
e also called Radial Basis Function (RBF) kernel 


总 结 一 下 ，kernel SVM 可 以 获得 large-margin 的 hyperplanes， 并 且 可 以 通过 高 阶 的 特征 转换 使 瓦 ,, 尽 
可 能 地 小 。kernel 的 引入 大 大 简化 了 dual SVM 的 计算 量 。 而 且 ，Gaussian kernel 能 将 特征 转换 扩展 到 
无 限 维 ， 并 使 用 有 限 个 SV 数 量 的 高 斯 函数 构造 出 矩 gsvMr 。 





large-margin 

hyperplanes 

+ higher-order transforms with kernel trick 
not many 

sophisticated 










e transformed vector z = ®(x) => efficient kernel K(x, x’) 
e store optimal w ==> store a few SVs and an 


值得 注意 的 是 ， 缩 放 因子 7 取 值 不 同 ， 会 得 到 不 同 的 高 斯 核 函 数 ，hyperplanes 不 同 ， 分 类 效果 也 有 很 
大 的 差异 。 举 个 例子 ，7 分 别 取 1, 10, 100 时 对 应 的 分 类 效果 如 下 : 











o o o 

o ii o i 

o 9 909 op = o 9 00° op 9o 
32 8 

oo xio O S/O Qo 
x Oo x : o A © = oj 
wot x x x x 也 OD © i 
x * x x x x © © 
cis Lp c S 
exp(-ilx-x|P) ^ exp(-10]x-x|P) ^ exp(-100]x 一 xll2) 


从 图 中 可 以 看 出 ， 当 7 比较 小 的 时 候 ， 分 类 线 比较 光 渭 ， 当 7 越 来 越 大 的 时 候 ， 分 类 线 变 得 越 来 越 复杂 
和 扭曲 ， 直 到 最 后 ， 分 类 线 变 成 一 个 个 独立 的 小 区 域 ， 像 小 岛 一 样 将 每 个 样本 单独 包 起 来 了 。 为 什么 
会 出 现 这 种 区 别 呢 y 这 是 因为 7 越 大 ， 其 对 应 的 高 斯 核 轴 数 越 尖 瘦 ， 那 么 有 限 个 高 斯 核 函 数 的 线性 组 合 
就 比较 离散 ， 分 类 效果 并 不 好 。 所 以 SVM 也 会 出 现 过 拟 合 现象 ，? 的 正确 选择 尤为 重要 ， 不 能 大 

大 。 


Comparison of Kernels 
目前 为 止 ， 我 们 已 经 介绍 了 几 种 kernel， 下 面 来 对 几 种 kernel 进 行 比较 。 


首先 ，Linear Kerne| 是 最 简单 最 基本 的 核 ， 平 面 上 对 应 一 条 直线 ， 三 维 空间 里 对 应 一 个 平面 。Linear 
Kernel 可 以 使 用 上 一 节 课 介绍 的 Dual SVM 中 的 QP 直 接 计 算得 到 。 


K(x,x’) =x!’ 





Linear Kernel 的 优点 是 计算 简单 、 快 速 ， 可 以 直接 使 用 QP 快速 得 到 参数 值 ， 而 且 从 视 完 上 分 类 效果 非 
常 直观 ， 便 于 理解 ;缺点 是 如 果 数 据 不 是 线性 可 分 的 情况 ，Linear Kernel 就 不 能 使 用 了 。 





e safe—tinear first, 
remember? :-) 

e fast—with special QP 
solver in primal 

e very explainable—w and 
SVs say something 


* restricted 
—not always separable?! 





i OE. K(x, x) = (c 5x!) 





Polynomial Kernel RRENA Rais, tHbUlinear kernel 限 制 更 少 ， 更 贴近 实际 样本 分 布 ; 
缺点 是 当 Q 很 大 时 ，K 的 数值 范围 波动 很 大 ， 而 且 参 数 个 数 较 多 ,， 难 以 选择 合适 的 值 。 


Pros 


e less restricted than linear 


e strong physical control 
— ‘knows’ degree Q 


e numerical difficulty for 
large Q 
e [cT 4x/x'| 12K 30 
e [C 5x" x'| 2A: KA big 
e three parameters (^. ¢, Q) 
一 more difficult to select 








Xj-F Gaussian Kernel， 表 示 为 高 斯 函数 形式 。 


K(x, x’) = exp(—7||x—x’||”) 





Gaussian Kernel 的 优点 是 边界 更 加 复杂 多 样 ， 能 最 准确 地 区 分 数据 样本 ， 数 值 计算 K 值 波动 较 小 ， 
只 有 一 个 参数 ， 容 易 选 择 ; 缺点 是 由 于 特征 转换 到 无 限 维度 中 ，w 没 有 求解 出 来 ， 
linear kernel， 而 且 可 能 会 发 生 过 拟 合 。 





e mysterious—no w 
e slower than linear 
e too powerful?! 


e more powerful than 
linear/poly. 

e bounded—less numerical 
difficulty than poly. 

* one parameter 
only—easier to select 
than poly. 





除了 这 三 种 kernel 之 外 ， 我 们 还 可 以 使 用 其 它 形式 的 kernel。 首 先 ， 我 们 考虑 kernel 是 什么 ?实际 上 
kernelI 代 表 的 是 两 笔 资料 x 和 x'， 特 征 变换 后 的 相似 性 即 内 积 。 但 是 不 能 说 任何 计算 相似 性 的 函数 都 可 
以 是 kernel。 有 效 的 kernel 还 需 满足 几 个 条 件 : 


。K 是 对 称 的 
。K 是 半 正 定 的 


这 两 个 条 件 不 仅 是 必要 条 件 ， 同 时 也 是 充分 条 件 。 所 以 ， 只 要 我 们 构造 的 K 同 时 满足 这 两 个 条 件 ， 那 它 
就 是 一 个 有 效 的 kernel。 这 被 称 为 Mercer 定理 。 事 实 上 ， 构 造 一 个 有 效 的 kernel 是 比较 困难 的 。 


* kernel represents special similarity: ®(x)’(x’) 
e any similarity => valid kernel? not really 


e necessary & sufficient conditions for valid kernel: 
Mercer’s condition 
* symmetric 
e let kj = K(x;,x;), the matrix K 


PX P(x) D(x) (x2) ... (x1) O(xw) 

中 (xz) P(x1) 中 (xz) "中 (xz) .中 (xz)7 中 (xnw) 

OXN) OX) (xy) 0c) ... (xw) (xw) 
m zt n. zw] 


ZZ! must always be positive semi-definite 


总 结 


本 节 课 主要 介绍 了 Kernel Support Vector Machine。 首 先 ， 我 们 将 特征 转换 和 计算 内 积 的 操作 合并 到 
一 起 ， 消 除了 d 的 影响 ， 提 高 了 计算 速度 。 然 后 ， 分 别 推导 了 Polynomial Kernel 和 Gaussian Kernel, 
并 列举 了 各 自 的 优 缺 点 并 做 了 比较 。 对 于 不 同 的 问题 ， 应 该 选择 合适 的 核 函 数 进行 求解 ， 以 达到 最 佳 
的 分 类 效果 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 技 法 》 课 程 





林 轩 田 《 机 器 学 习 技法 》 课 程 笔 记 4 -- Soft-Margin 
Support Vector Machine 


VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Kernel SVM。 先 将 特征 转换 和 计算 内 积 这 两 个 步骤 合并 起 来 ， 
简化 计算 、 提 高 计算 速度 ， 再 用 Dual SVM 的 求解 方法 来 解决 。Kernel SVM 不 仅 能 解 
决 简单 的 线性 分 类 问题 ， 也 可 以 求解 非常 复杂 甚至 是 无 限 多 维 的 分 类 问题 ， 关 键 在 于 
核 浮 数 的 选择 ， 例 如 线性 核 肖 数 、 多 项 式 核 浮 数 和 高 斯 核 浮 数 等 等 。 但 是 ， 我 们 之 前 
讲 的 这 些 方 法 都 是 Hard-Margin SVM， 即 必须 将 所 有 的 样本 都 分 类 正确 才 行 。 这 往往 
需要 更 多 更 复杂 的 特征 转换 ， 甚 至 造成 过 拟 合 。 本 节 课 将 介绍 一 种 Soft-Margin 

SVM， 目 的 是 让 分 类 错误 的 点 越 少 越 好 ， 而 不 是 必须 将 所 有 点 分 类 正确 ， 也 就 是 允许 
有 noise 存 在 。 这 种 做 法 很 大 程度 上 不 会 使 模型 过 于 复杂 ， 不 会 造成 过 拟 合 ， 而 且 分 类 
效果 是 令 人 满意 的 。 


Motivation and Primal Problem 


上 节 课 我 们 说 明了 一 点 ， 就 是 SVM 同样 可 能 会 造成 overfit。 原 因 有 两 个 ， 一 个 是 由 于 
我 们 的 SVM 模 型 ( 即 kernel) 过 于 复杂 ， 和 转换 的 维度 太 多 ， 过 于 powerful 了 ;另外 一 
个 是 由 于 我 们 坚持 要 将 所 有 的 样本 都 分 类 正确 ， 即 不 允许 错误 存在 ， 造 成 模型 过 于 复 
杂 。 如 下 图 所 示 ， 左 边 的 图 里; 是 线性 的 ， 虽然 有 几 个 点 分 类 错误 ,但 是 大 部 分 都 能 完 
全 分 开 。 右 边 的 图 中 4 是 四 次 多 项 式 ， 所 有 点 都 分 类 正确 了 ， 但 是 模型 比较 复杂 ， 可 能 
造成 过 拟 合 。 直 观 上 来 说 ， 左 边 的 图 是 更 合理 的 模型 。 











x : o 
* œ 
e part of reasons: 中 ; 
e other part: separable z 
x x x 
中 4 





noise 点 ， 但 是 尽量 让 这 些 noise 个 数 越 少 越 好 。 回 顾 一 下 我 们 在 机 器 学 习 基 石 笔记 中 
介绍 的 pocket 算 法 ，pocket 的 思想 不 是 将 所 有 点 完全 分 开 ， 而 是 找到 一 条 分 类 线 能 让 
分 类 错误 的 点 最 少 。 而 Hard-Margin SVM 的 目标 是 将 所 有 点 都 完全 分 开 ， 不 允许 有 错 
误 点 存在 。 为 了 防止 过 拟 合 ， 我 们 可 以 借鉴 pocket 的 思想 ， 即 允许 有 犯错 误 的 点 ， 目 
标 是 让 这 些 点 越 少 越 好 。 


hard-margin SVM 





N 
| GN we 
min 2. [yn # sign(w' z, + b)] min aww 


St. _y,(w’z, +b) > 1 for all n 














为 了 引入 允许 犯错 误 的 点 ， 我 们 将 Hard-Margin SVM 的 目标 和 条 件 做 一 些 结 合 和 修 
正 ， 转 换 为 如 下 形式 : 


N 
AES : 1 7 T 
combination: min zW w + C» 2. [yn Æ sign(W Zn + b)| 


St yn(w!z, + b) > 1 for correct n 
yp(w7zn + b) > —æ for incorrect n 


MT yn # sign(w! zn 十 如 ， 即 noise 点 的 个 数 。 参 数 C 的 引入 是 为 了 权衡 目标 第 一 
项 和 第 二 项 的 关系 ， 即 权衡 large margin 和 noise tolerance 的 关系 。 


我 们 再 对 上 述 的 条 件 做 修正 ， 将 两 个 条 件 合并 ， 得 到 : 


1 7 = à; T 
min 2" W 十 ap [ya # sign(w' zn + b)] 


St — y(W'z,- b) > 1- œ- [yo # sign(w'z, + b)] 


这 个 式 子 存 在 两 个 不 足 的 地 方 。 首 先 ， 最 小 化 目标 中 第 二 项 是 非 线性 的 ， 不 满足 QP 的 





error 和 large error。 这 种 分 类 效果 是 不 完美 的 。 


e [.]: non-linear, not QP anymore :-( 
—what about dual? kernel? 


e cannot distinguish small error (slightly away from fat boundary) 
or large error (a...w...a...y... from fat boundary) 


为 了 改正 这 些 不 足 ， 我 们 继续 做 如 下 修正 : 


e record ‘margin violation’ by ¢,—linear constraints 


e penalize with margin violation instead of error count 
—quadratic objective 


ata i. zc 
soft-margin SVM: min 2" Ww E 2. E 
S.t. Yn(w'2z,+ b) > 1—£, and én > 0 for all n 
修正 后 的 表达 式 中 ， 我 们 引入 了 新 的 参数 ,来 表示 每 个 点 犯错 误 的 程度 值 ，&;, > 0. 
通过 使 用 error 值 的 大 小 代替 是 否 有 error,“ 让 问题 变 得 易于 求解 ， 满 足 QP 形 式 要 求 。 


这 种 方法 类 似 于 我 们 在 机 器 学 习 基 石 笔 记 中 介绍 的 0/1 error 和 squared error。 这 种 
soft-margin SVM 引入 新 的 参数 6。 


至 此 ， 最 终 的 Soft-Margin SVM 的 目标 为 : 
Los N 
min(b, w, £) jw w +C- 3 £s 


条 件 是 : 
Yn (WT Zn +b)>1-& 
£40 


Bp, En meh RSÜUIBIRBUEES, En — 0， 表 示 没 有 错误 ，6 越 大 ， 表 示 错 误 越 
大 ， 即 点 距离 边界 ( 负 的 ) 越 大 。 参 数 C 表 示 尽 可 能 选择 宽 边 界 和 尽 可 能 不 要 犯错 两 
者 之 间 的 权衡 ， 因 为 边界 宽 了 ， 人 往往 犯 错误 的 点 会 增加 。large C 表 示 和 希望 得 到 更 少 的 
分 类 错误 ， 即 不 惜 选择 窄 边 界 也 要 尽 可 能 把 更 多 点 正确 分 类 ; small C 表 示 和 希望 得 到 更 
宽 的 边界 ， 即 不 惜 增加 错误 点 个 数 也 要 选择 更 宽 的 分 类 边界 。 


与 之 对 应 的 QP 问题 中 ， 由 于 新 的 参数 6 的 引入 ， 总 共 参 数 个 数 为 6 十 1 十 V， 限 币 FE 





条 件 添加 了 & — 0， 则 总 条 件 个 数 为 2N。 


e record ‘margin violation’ by €n 
e penalize with margin violation 


NEC = 


n=1 


st yp(w'z, +b) > 1—£, and £, > 0 for all n 





e parameter C: trade-off of large margin & margin violation 
* large C: want less margin violation 
e small C: want large margin 


e OP of d+ 1 + N variables, 2N constraints 





Dual Problem 


接 下 来 ， 我 们 将 推导 Soft-Margin SVM 的 对 偶 dual 形 式 ， 从 而 让 QP 计 算 更 加 简单 ， 并 
便于 引入 kerne 人 | 算法。 首先 ， 我 们 把 SoftsMargin SVM 的 原始 形式 写 出 来 : 


= J 
1 
imal: i LNT . 
prima min zw w-cC dé 


s.t. N yn(w'z, + b) > 1—£, and €, > 0 for all n 
然后 ， 跟 我 们 在 第 二 节 课 中 介绍 的 Hard-Margin SVM 做 法 一 样 ， 构 造 一 个 拉 格 朗 日 函 


数 。 因 为 引入 了 én， 原 始 问 题 有 两 类 条 件 ， 所 以 包含 了 两 个 拉 格 朗 日 因子 Qn 和 Bn。 
拉 格 明日 函数 可 表示 为 如 下 形式 : 


Lagrange function with Lagrange multipliers an and 5; 


N 
£(b.w.£,0,8) = ;w'w-C.Y 6 
n=1 


N N 
+5 an: (1 — En — Yn(W' Zn + b)) + >. Bn (—én) 


n=1 n=1 





接 下 来 ， 我 们 跟 第 二 节 课 中 的 做 法 一 样 ， 利 用 Lagrange dual problem， 将 Soft-Margin 
SVM 问题 转换 为 如 下 形式 : 


1 
max (中 gw Wi+ G 36 
n=1 
N 


N 
+》， Qn ` (1 xd em yn(W’ zn x b)) F 3: B, - e) 


n=1 n=1 


根据 之 前 介绍 的 KKT 条 件 ， 我 们 对 上 式 进行 简化 。 上 式 括 号 里 面 的 是 对 拉 格 朗 日 函数 
L(b, w, €, a, DB) 计算 最 小 值 。 那 么 根据 梯度 下 降 算 法 思想 : 最 小 值 位 置 满足 梯度 为 


a 


我 们 先 对 6" 做 俩 微分 : 
OL 


à, 9-035 


‘RBC, BC, = C 一 an， 因为 有 = 0 所 以 限制 0 <a, < C. 将 
Bn = C 一 om 代入 到 dual 形 式 中 并 化 简 , 我 们 发 现 Bn, 和 ,都 被 消去 了 : 


N 
A 1 7 T 
= 1— 
Oe (ni 2" bs + 3 anf Yn(w Zn T »») 


这 个 形式 跟 Hard-Margin SVM 中 的 dual 形 式 是 基本 一 致 的 ， 只 是 条 件 不 同 。 那 么 ， 我 
们 分 别 令 拉 个 朗 日 浮 数 L 对 b 和 w 的 偏 导数 为 零 ， 分 别 得 到 : 


N 
1 Qnyn = 0 
n=1 
N 
w = 1 Qn Yn Zn 
n=1 


经 过 化 简 和 推导 ， 最 终 标准 的 Sof-Margin SVM 的 Dual 形 式 如 下 图 所 示 : 





1 N N N 
min 2 D »5 Ono mYnYmZ]Zm = 5 On 
n-1 


n=1 m=1 
subjectto ”>》 ynan = 0; 
Decn = CONSTAN: 


N 
implicitly w = Y anynZn; 
n=1 


B,= G—an, forn=1,2,...,N 


—only difference to hard-margin: upper bound on a, 


Soft-Margin SVM Dual5gHard-Margin SVM Dual 基 本 一 致 ， 只 有 一 些 条 件 不 同 。 
Hard-Margin SVM Duala, > 0， 而 Soft-Margin SVM-Dual 中 0 < o, < C， 且 新 
的 拉 格 朗 日 因子 Bn = C 一 Qn,。 在 QP 问题 中 ，Soft-Margin SVM Dual 的 参数 an 同样 
是 N 个 ， 但 是 ， 条 件 由 Hard-Margin SVM Dual 中 的 N+1 个 变 成 2N+1 个 ， 这 是 因为 多 了 
N 个 an 的 上 界 条 件 。 


对 于 Soft-Margin SVM Dual 这 部 分 推导 不 太 清 楚 的 同学 ， 可 以 看 下 第 二 节 课 的 笔记 : 
台湾 大 学 林 杆 田 机 器 学 习 扩 法 课程 学 为 笔记 2 -- Dual Support Vector Machine 


Messages behind Soft-Margin SVM 


推导 完 Soft-Margin SVM Dual 的 简化 形式 后 ， 就 可 以 利用 QP， 找 到 Q，p，A，c 对 应 

的 值 ， 用 软件 工具 包 得 到 oa 的 值 。 或 者 利用 核 国 数 的 方式 ， 同 样 可 以 简化 计算 ， 优 化 
分 类 效果 。Soft-Margin SVM Dual 计 算 a, 的 方法 过 程 与 Hard-Margin SVM Dual 的 过 

程 是 相同 的 。 


Soft-Margin M Algorithm 
€? qnm = ynymK(Xn, Xm); p = —1w; (A, c) for 
equ./lower-bound/upper-bound constraints 
© a + QP(Qp,p, A, c) 
be? 
© return SVs and their an as well as b such that for new x, 


gsvw(X) = sign ( Ann K (Xn, X) + b) 


SV indices n 





但 是 如 何 根据 a， 的 值 计算 b 呢 ? 在 Hard-Margin SVM Dual 中 ， 有 complementary 
slackness 条 件 : an (1 一 y. (wl zn + b)) — 0， 找 到 SV， 即 w。> 0 的 点 ， 计 算得 
到 ! = ys 一 a ss 


那么 ， 在 Soft-Margin SVM Dual 中 ， 相 应 的 complementary slackness 条 件 有 两 个 ( 因 
为 两 个 拉 格 朗 日 因子 Qn 和 Bn) : 


An (1 — én — Yn (WT zn +b)) =0 
Pata = (C 一 On JE — 0 


找到 SV， 即 aw。> 0 的 点 ， 由 于 参数 6 的 存在 ， 还 不 能 完全 计算 出 b 的 值 。 根 据 第 二 个 
complementary slackness 和 条件， 如果 令 C — an £0, Bla, AC, NEB 

En = 0， 代 入 到 第 一 个 complementary slackness 条 件 ， 即 可 计算 得 到 

b 二 ys — WT zs。 我 们 把 0 <a, < C0 的 点 称 为 free SV。 引 入 核 函数 后 ，b 的 表达 式 
为 : 


b = Y; 一 b» Om Un K (25,25) 
SV 


上 面 求解 b 提 到 的 一 个 假设 是 w。< C ， 这 个 假设 是 否 一 定 满足 呢 ? 如 果 没 有 free 

SV， 所 有 as 大 于 零 的 点 都 满足 Qs 二 CEAD? 一 般 情况 下 ， 至 少 存在 一 组 SV 使 

as < C0 的 概率 是 很 大 的 。 如 果 出 现 没有 free SV 的 情况 ， 那 么 b 通 常会 由 许多 不 等 式 
条 件 限制 取 值 范围 ， 值 是 不 确定 的 , -只 要 能 找到 其 中 满足 KKT 条 件 的 任意 一 个 b 值 就 可 
以 了 。 这 部 分 细节 比较 复杂 不 青 蒙 述 。 






hard-margin SVM 


complementary slackness: 
an(1 — yn(w'z, + b)) 2 0 





soft-margin SVM 
complementary slackness: 
an(1 — En — Yn(W' 2p + b)) 2 0 
(C — an)£n =0 
* SV (as > 0) 
= b = ys — ysés— W! Zs 
* free (os < C) 
zb &,=0 






o SV (as > 0) 
=> b= y,—w'z, 





接 下 来 ， 我 们 看 看 C 取 不 同 的 值 对 margin 的 影响 。 例 如 ， 对 于 Soft-Margin Gaussian 
SVM，C 分 别 取 1，10，100 时 ， 相 应 的 margin 如 下 图 所 示 : 











从 上 图 可 以 看 出 ，C=1 时 ，margin 比 较 粗 ， 但 是 分 类 错误 的 点 也 比较 多 ， 当 C 越 来 越 
大 的 时 候 ，margin 越 来 越 细 ， 分 类 错误 的 点 也 在 减少 。 正 如 前 面 介绍 的 ，C 值 反映 了 
margin 和 分 类 正确 的 一 个 权衡 。C 越 小 ， 越 倾向 于 得 到 粗 的 margin， 宁 可 增加 分 类 错 
误 的 点 ; C 越 大 ， 越 倾向 于 得 到 高 的 分 类 正确 率 ， 宁 可 margin 很 细 。 我 们 发 现 ， 当 C 值 
很 大 的 时 候 ， 虽 然 分 类 正确 率 提高 ， 但 很 可 能 把 noise 也 进行 了 处 理 ， 从 而 可 能 造成 过 
拟 合 。 也 就 是 说 Soft-Margin Gaussian SVM 同样 可 能 会 出 现 过 拟 合 现象 ， 所 以 参数 
(y, C) 的 选择 非常 重要 。 


我 们 再 来 看 看 an 取 不 同 值 是 对 应 的 物理 意义 。 已 知 0 < ou < C 满足 两 个 


complementary slackness 条 件 : 
On(1 — En FF yn (WwW Zn + b)) =0 
Pn€n E (C 73 om JE 一 0 


Ean = 0, én = 0..€ 三 -0 表示 该 点 没有 犯错 ，an = 0 表示 该 点 不 是 SV。 所 以 
对 应 的 点 在 margin 之 外 (或 者 在 margin 上 ) ， 且 均 分 类 正确 。 


若 0 < an < C, Bén —0, Ey, (wl zn +b) =1. & = 0 表示 该 点 没有 犯错 ， 
yn (Ww zn + b) = 1 表示 该 点 在 margin 上 。 这 些 点 即 free SV， 确 定 了 b 的 值 。 


Ba, = CO， 不 能 确定 6 是 否 为 零 ， 且 得 到 1 一 加 (wl zn +b) = én, IARR 
该 点 偏离 margin 的 程度 ，&6&, 越 大 ， 偏 离 margin 的 程度 越 大 。 只 有 当 &;, =O, AR 
落 在 margin 上 。 所 以 这 种 情况 对 应 的 点 在 margin 之 内 负 方 向 (或 者 在 margin 上 ) ， 有 
分 类 正确 也 有 分 类 错误 的 。 这 些 点 称 为 bounded SV。 


所 以 ， 在 Soft-Margin SVM Dual}, Rian 的 取 值 ， 就 可 以 推断 数据 点 在 空间 的 分 布 
情况 。 





e non SV (0 = a4): En = 0, 
‘away from’/on fat boundary 
o O free SV (0 < an < C): £5 = 0, 
on fat boundary, locates b 
e A bounded SV (a, = C): 
En = violation amount, 
'violate'/on fat boundary 








Model Selection 


在 Soft-Margin SVM Dual 中 ，kernel 的 选择 、C 等 参数 的 选择 都 非常 重要 ， 直 接 影 响 分 
类 效果 。 例 如 ， 对 于 Gaussian SVM， 不 同 的 参数 (C, 7Y)， 会 得 到 不 同 的 margin， 如 
下 图 所 示 。 








其 中 横 坐标 是 C 逐 渐 增 大 的 情况 ， 纵 坐标 是 ?逐渐 增 大 的 情况 。 不 同 的 (C, 7 组 合 ， 
margin 的 差别 很 大 。 那 么 如 何 选择 最 好 的 (C, 7) 等 参数 呢 ? 最 简单 最 好 用 的 工具 就 是 


validation, 

validation 我 们 在 机 器 学 习 基石 课程 中 已 经 介绍 过 ， 只 需要 将 由 不 同 (C, y) 等 参数 得 到 
的 模型 在 验证 集 上 进行 cross validation， 选 取 包 6 最 小 的 对 应 的 模型 就 可 以 了 。 例 如 
上 图 中 各 种 (C, Y) 组 合 得 到 的 Bo 如 下 图 所 示 : 





0.3500 0.3250 0.250 


一 -一 L~ 一- 一 


0.2000 0.2250 0.2750 


一 ] 1 
aa he BY Ic SN 


0.1750. 0.2250 0.2000 


= a — (SS -一 


因为 左下 角 的 Bc (C, 7Y) 最 小 ， 所 以 就 选择 该 (C, 7Y) 对 应 的 模型 。 通 常 来 说 ， 

Ec (CO, YY) 并 不 是 (C, YY) 的 连续 函数 ， 很 难 使 用 最 优化 选择 ,( 例 如 梯度 下 降 ) 。 一 般 
做 法 是 选取 不 同 的 离散 的 (C, YY) 值 进行 组 合 ， 得 到 最 小 的 Boy(C, 7Y)， 其 对 应 的 模型 
即 为 最 佳 模 型 。 这 种 算法 就 是 我 们 之 前 在 机 器 学 习 基 石 中 介绍 过 的 V-Fold cross 
validation， 在 SVM 中 使 用 非常 广泛 。 


V-Fold cross validation 的 一 种 极限 就 是 Leave-One-Out CV， 也 就 是 验证 集 只 有 一 个 
样本 。 对 于 SVM 问题 ， 它 的 验证 集 Error 满 足 : 
SV 


Eloocv < N 


也 就 是 说 留 一 法 验证 集 Error 大 小 不 超过 支持 向 量 SV 占 所 有 样本 的 比例 。 下 面 做 简单 的 
证 明 。 令 样本 总 数 为 N， 对 这 NN 个 点 进行 SVM 分 类 后 得 到 margin， 假 设 第 N 个 点 
(cv, yn Way — 0， 不 是 SV， 即 远离 margin (EER) 。 这 时 候 ， 如 果 我 们 只 使 
用 剩 下 的 N-1 个 点 来 进行 SVM 分 类 ， 那 么 第 N 个 点 (zw, yn ) 必 然 是 分 类 正确 的 点 ， 所 
得 的 SVM margin 跟 使 用 N 个 点 的 到 的 是 完全 一 致 的 。 这 是 因为 我 们 假设 第 N 个 点 是 
non-SV， 对 SV 没 有 贡献 ， 不 影响 margin 的 位 置 和 形状 。 所 以 前 N-1 个 点 和 N 个 点 得 到 
的 margin 是 一 样 的 。 


那么 ， 对 于 non-SV 的 点 ， 它 的 9  — 9， 即 对 第 N 个 点 ， 它 的 Error 必 然 为 零 : 
€non—SV = err(g ,non = SV) = err(g, non — SV) = 0 


另 一 方面 ， 假 设 第 N 个 点 ww Z 0， 即 对 于 SV 的 点 ， 它 的 Error 可 能 是 0， 也 可 能 是 1， 
必然 有 : 


esy <1 





margin，non-SV 对 margin 没 有 任何 影响 ， 可 以 舍弃 。 


综 上 所 述 ， 即 证 明了 Bloocs < 条 。 这 符合 我 们 之 前 得 到 的 结论 ， 即 只 有 SV 影响 


SV 的 数量 在 SVM 模 型 选择 中 也 是 很 重要 的 。 一 般 来 说 ，SV 越 多 ， 表 示 模 型 可 能 越 复 
杂 ， 越 有 可 能 会 造成 过 拟 合 。 所 以 ， 通 常 选择 SV 数量 较 少 的 模型 ， 然 后 在 剩 下 的 模型 
中 使 用 cross-validation， 比 较 选 择 最 佳 模型 。 


总 结 


= 


本 节 课 主要 介绍 了 Soft-Margin SVM。 我 们 的 出 发 点 是 与 Hard-Margin SVM 不 同 ， 不 
一 定 要 将 所 有 的 样本 点 都 完全 分 开 ， 人 允许 有 分 类 错误 的 点 ， 而 使 margin 比 较 宽 。 然 
后 ,我 们 增加 了 6 作为 分 类 错误 的 惩罚 项 ， 根 据 之 前 介绍 的 Dual SVM ， 推 导出 了 
Soft-Margin SVM 的 QP 形式 。 得 到 的 ow 除了 要 满足 大 于 零 ， 还 有 一 个 上 界 C。 接 着 介 
绍 了 通过 ay 值 的 大 小 ， 可 以 将 数据 点 分 为 三 种 : non-SVs, free SVs, bounded 
SVs， 这 种 更 清晰 的 物理 解释 便于 数据 分 析 。 最 后 介绍 了 如 何 选择 合适 的 SVM 模型 ， 
通常 的 办 法 是 cross-validation 和 利用 SV 的 数量 进行 筛选 ; 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 人 《机 器 学 习 技法 》 课 程 





林 轩 田 《 机 器 学 习 技 法 》 课 程 笔记 5 -- Kernel Logistic 


Regression 


VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Soft-Margin SVM ， 即 如 果 人 允许 有 分 类 错误 的 点 存在 ， 那 么 在 
原来 的 Hard-Margin SVM 中 添加 新 的 惩罚 因子 C， 修 正 原 来 的 公式 ， 得 到 新 的 an" 值 。 
最 终 的 到 的 w, 有 个 上 界 ， 上 界 就 是 C。Soft-Margin SVM 权衡 了 large-margin 和 error 
point 之 前 的 关系 ， 目 的 是 在 尽 可 能 犯 更 少 错误 的 前 提 下 ， 得 到 最 大 分 类 边界 。 本 节 课 
将 把 Soft-Margin SVM 和 我 们 之 前 介绍 的 Logistic Regression 联 系 起 来 ， 研 究 如 何 使 用 
kernel 技 巧 来 解决 更 多 的 问题 。 


Soft-Margin SVM as Regularized Model 


先 复习 一 下 我 们 已 经 介绍 过 的 内 容 ， 我 们 最 早 开始 讲 了 Hard-Margin Primal 的 数学 表 
达 式 ， 然 后 推导 了 Hard-Margin Dual 形 式 后 来 ， 为 了 允许 有 错误 点 的 存在 (或 者 
noise) ， 也 为 了 避免 模型 过 于 复杂 化 ;造成 过 拟 合 ,我 们 建立 了 Soft-Margin Primal 
的 数学 表达 式 ， 并 引入 了 新 的 参数 C 作 为 权衡 因子 ， 然 后 也 推导 了 其 Soft-Margin Dual 
形式 。 因 为 Soft-Margin Dual SYVM 更 加 灵活 、 便 于 调整 参数 ， 所 以 在 实际 应 用 中 ， 使 
用 Soft-Margin Dual SVM 来 解决 分 类 问题 的 情况 更 多 一 些 。 


Hard-Margin Primal -Margin Primal 














N 
Ld 
min 5w wt C£ 


: 1 7 
min -WwW WwW 
2 b.w.€ 


b.w 
n=1 


ys(W!z, + b) > 1 





s.t. Yn(W'Zn +b) 2 1—£5.£5 20 





s.t. 





Hard-Margin Dual -Margin Dual 


min 5a" Qa Eu 
s.t. yl'a-0 





0<an<C 





Soft-Margin Dual SVM 有 两 个 应 用 非常 广泛 的 工具 包 ， 分 别 是 Libsvm 和 Liblinear。 
Libsvm 和 Liblinear 都 是 国立 台湾 大 学 的 Chih-Jen Lin 博 士 开 发 的 ，Chih-Jen Lin 的 个 人 
网 站 为 : Welcome to Chih-Jen Lin's Home Page 


下 面 我 们 再 来 回顾 一 下 Soft-Margin SVM 的 主要 内 容 。 我 们 的 出 友 点 是 用 ,来 表示 
margin violation， 即 犯错 值 的 大 小 ， 没 有 犯错 对 应 的 6 = 0。 然 后 将 有 条 件 问 题 转化 
为 对 偶 dual 形 式 ， 使 用 QP 来 得 到 最 佳 化 的 解 。 


从 另外 一 个 角度 来 看 ，é&, 描 述 的 是 点 (zx; , Yn) 距离 加 (wl zn +b) = 1 的 边界 有 多 
远 。 第 一 种 情况 是 violating margin， 即 不 满足 yn (w^ zn +b) > 1。 那 么 6 可 表示 
为 : 4&3. (wT zn +b) > 0。 第 二 种 情况 是 not violating margin, BPA 
(En, Yn) 在 边界 之 外 ， 满 足 yn (wl zn +b) > IAS, WWE, = 0。 我 们 可 以 将 
两 种 情况 整合 到 一 个 表达 式 中 ， 对 任意 点 


En = max(1 — Yn (wT zn + b), 0) 


上 式 表明 ， 如 果 有 voilating margin, M1 一 yn (wT z,, +b) > 0, 
En = 1 — ya (wl? zn +b); 如 果 not violating margin, 则 1 — yn (wT zn +b) < 0 
，& 二 0。 整 合 之 后 ， 我 们 可 以 把 Soft-Margin SVM 的 最 小 化 问题 写成 如 下 形式 : 


l T * D 

jw Y 十 C ) poet — ya (w^ zn + b), 0) 
经 过 这 种 转换 之 后 ， 表 征 犯 错误 值 大 小 的 变量 4" 就 被 消去 了 ， 转 而 由 一 个 max 操 作 代 
8. 





* record ‘margin violation’ by £n 
* penalize with margin violation 


N 
min jwTw+ e J 
n=1 


St — yn(w'z, + b) > 1 — ĉn and £n > O forall n 


b.w.£ 





on any (b. w), €n = margin violation = max(1 — yn(W’zn + b). 0) 
* (Xn, yn) violating margin: En = 1 — yn(w!Zn + b) 
* (Xn, Yn) not violating margin: £; = 0 








'unconstrained' form of soft-margin SVM: 





N 
—— e : 
min zw w+ EX en — Yn(W' Zn + b), 0) 


为 什么 要 将 把 Soft-Margin SVM 转换 为 这 种 unconstrained form 呢 ?我 们 再 来 看 一 下 转 
换 后 的 形式 ， 其 中 包含 两 项 ， 第 一 项 是 w 的 内 积 ， 第 三 项 关于 y 和 w，b，z 的 表达 式 ， 
似乎 有 点 像 一 种 错误 估计 ef#r， 则 类 似 这 样 的 形式 : 


1 
min ju +C »» err 


看 到 这 样 的 形式 我 们 应 该 很 熟悉 ， 因 为 之 前 介绍 的 L2 Regularization 中 最 优化 问题 的 
表达 式 跟 这 个 是 类 似 的 : 


min wU w+ N Serr 


N 
| LA T 
min WwW W+ 2 - max(1 一 Jp(w Zn + b), 0) 


2 
familiar? :-) just L2 regularization 
min 'w'w4C X erm min Awlw4 L Xer 
2 N N 


with shorter w, another 
parameter, and special err 








这 里 提 一 下 ， 既 然 unconstrained form SVM 与 L2 Regularization 的 形式 是 一 致 的 ， 而 
且 L2 Regularization 的 解法 我 们 之 前 也 介绍 过 ， 那 么 为 什么 不 直接 利用 这 种 方法 来 解 
决 unconstrained form SVM 的 问题 呢 ” 有 两 个 原因 。 一 个 是 这 种 无 条 件 的 最 优化 问题 
无 法 通过 QP 解 决 ， 即 对 偶 推 导 和 kernel 都 无 法 使 用 ; 另 一 个 是 这 种 形式 中 包含 的 
max() 项 可 能 造成 函数 并 不 是 处 处 可 导 ， 这 种 情况 难以 用 微分 方法 解决 。 


我 们 在 第 一 节 课 中 就 介绍 过 Hard-Margin SVM 与 Regularization Model 是 有 关系 的 。 
Regularization 的 目标 是 最 小 化 加 ;,, ， 条 件 是 w/w « C， 而 Hard-Margin SVM 的 目标 
是 最 小 化 w 7w， 条 件 是 i;, — 0， 即 它们 的 最 小 化 目标 和 限制 条 件 是 相互 对 调 的 。 对 
于 L2 Regularization 来 说 ， 条 件 和 最 优化 问题 结合 起 来 ， 整 体形 式 写 成 : 


入 
yew + Ei 


而 对 于 Soft-Margin SVM 来 说 ， 条 件 和 最 优化 问题 结合 起 来 ， 整 体形 式 写成 : 


1 、 
QU uw + CN Ein 


minimize constraint 


regularization by constraint 


hard-margin SVM 


L2 regularization 


soft-margin SVM 5w!w+ CNEin 





Ein = 0 [and more] 


通过 对 比 ， 我 们 发 现 L2 Regularization 和 Soft-Margin SVM 的 形式 是 相同 的 ， 两 个 式 子 
分 别 包 含 了 参数 和 和 C。Soft-Margin SVM 中 的 large margin 对 应 着 L2 Regularization 中 
的 short w， 也 就 是 都 让 hyperplanes 更 简单 一 些 。 我 们 使 用 特别 的 ef7 来 代表 可 以 容忍 
犯错 误 的 程度 ， 即 soft margin, L2 Regularization 中 的 和 和 Soft-Margin SVM 中 的 C 也 
是 相互 对 应 的 ， 入 越 大 ，w 会 越 小 ，Regularization 的 程度 就 越 大 ; CHN, Ein RR 
大 ， 相 应 的 margin 就 越 大 。 所 以 说 增 大 C， 或 者 减 小 入 ， 效 果 是 一 致 的 ，Large-Margin 
等 同 于 Regularization， 都 起 到 了 防止 过 拟 合 的 作用 。 


large margin < 一 fewer hyperplanes < 一 L2 regularization of short w 
soft margin <—> special err 


larger C or C ==> smaller 入 <= less regularization 





建立 了 Regularization 和 Soft-Margin SVM 的 关系 ， 接 下 来 我 们 将 党 试看 看 是 否 能 把 
SVM 作为 一 个 regularized 的 模型 进行 扩展 ， 来 解决 其 它 一 些 问 题 。 


SVM versus Logistic Regression 


上 一 小 节 ,， 我 们 已 经 把 Soft-Margin SVM 转换 成 无 条 件 的 形式 : 


| 1 z 
min zw w * Cy max(1— y, (w'z, + b). 0) 


n=1 


上 式 中 第 二 项 的 maz(1 一 y, (wT zn 十 四 ;0) 倍 设置 为 efr。 下 面 我 们 来 看 看 e?r 与 
之 前 再 二 元 分 类 中 介绍 过 的 erro/1 有 什么 关系 。 


对 于 er70y1， 它 的 linear score s = wi zn +b, 34ys > OF, erro — 0; 当 

ys < OR, erro — 1， 呈 阶梯 状 。 如 下 图 所 示 。 而 对 于 e?， 当 ys > 0 时 ， 
erro = 0; Sys < OR, erro — 1 一 ys， 是 折 线 状 ,如 下 图 所 示 ， 通 常 把 
CPT sym 称 为 hinge error measure。 上 比较 两 条 error 曲 线 ， 我 们 发 现 ef7 sum 
始终 在 erro/i 的 上 面 ， 则 efrswm 可 作为 erro/i 的 上 界 。 所 以 ， 可 以 使 用 efrswm 来 代 
Berro,, ， 解 决 二 元 线性 分 类 问题 ， 而 且 efrywm 是 一 个 凸 函数 ， 使 它 在 最 佳 化 问题 中 
有 更 好 的 性 质 。 


linear score s = w7z, + b 


e erro/1(s,y)= [ys < 0] 

e érrsyy (S, y) = max(1 — ys, 0): 
upper bound of erro, 
—often called hinge error measure 





4210 14 2 3 


errsvw: algorithmic error measure 
by convex upper bound of erro, | 
紧 接 着 ， 我 们 再 来 看 一 下 logistic regression AYerror function, ZEP, 
CTT sce = loga (1 十 ezp( 一 Vs))， 当 ys=0 时 ，er7sce = 1。 它 的 err 曲 线 如 下 所 示 。 





linear score s = w?z, + b 6 一 0/1 


一 SVI 
二 Scaled Ce 


e erro/(s,y)= [ys < 0] 

e errsyy (S, y) = max(1 — ys,0): 
upper bound of erro; 

* crtsce(S, y) = loga(1 + exp(—ys)): 
another upper bound of erro/1 used in -9 2-1 0 1 2 3 

logistic regression 








(In 2) - errsce(S, y) 





很 明显 ，eryrsce 也 是 er7o/1 的 上 界 ， 而 er7sce 与 ef7swm 也 是 比较 相近 的 。 因 为 当 ys 趋 
向 正 无 穷 大 的 时 候 ，e77sce 和 efrsom 都 趋向 于 零 ; 当 ys 趋 向 负 无 穷 大 的 时 候 ，eryrsce 
和 efrsom 都 趋向 于 正 无 穷 大 。 正 因为 二 者 的 这 种 相似 性 ， 我 们 可 以 把 SVM 看 成 是 L2- 


regularized logistic regression。 


总 结 一 下 ， 我 们 已 经 介绍 过 几 种 Binary Classification 的 Linear Models, @45PLA, 
Logistic Regression 和 Soft-Margin SVM。PLA 是 相对 简单 的 一 个 模型 ， 对 应 的 是 
err0/1， 通 过 不 断 修 正 错误 的 点 来 获得 最 佳 分 类 线 。 它 的 优点 是 简单 快速 ,缺点 是 只 
对 线性 可 分 的 情况 有 用 ， 线 性 不 可 分 的 情况 需要 用 到 pocket 算 法 。Logistic 
Regression 对 应 的 是 er7sce， 通 常 使 用 GD/SGD 算 法 求解 最 佳 分 类 线 。 它 的 优点 是 
函数 er7sce 便 于 最 优化 求解 ,而且 有 regularization 作 为 避免 过 拟 合 的 保证 ; 缺点 是 
err scefFAerro ALA, SysiR\ (AB) 时 ， 上 界 变 得 更 宽松 ， 不 利于 最 优化 求 
解 。Soft-Margin SVM 对 应 的 是 efrsww ， 通 常 使 用 QP 求 解 最 佳 分 类 线 。 它 的 优点 和 
Logistic Regression 一 样 ， 巴 优化 问题 计算 简单 而 且 分 类 线 比较 "粗壮 一 些 ; 缺点 也 和 
Logistic Regression 一 样 ， 当 ys 很 小 ( 负 值 ) 时 ， 上 界 变 得 过 于 宽松 。 其 实 ，Logistic 
Regression 和 Soft-Margin SVM 都 是 在 最 佳 化 er70 ji 的 上 界 而 已 。 





soft-margin regularized 


SVM logistic regression 
| for classification 
minimize regularized | minimize regularized 
ErTsvM by QP eITscE by GD/SGD/... 
* pros: ‘easy’ e pros: ‘easy’ 
optimization & optimization & 
theoretical regularization 
guarantee guard 
* cons: loose e cons: loose 
bound of erro; for bound of erro, for 
very negative ys very negative ys 


























minimize 

erro/1 Specially 

e pros: efficient if 
lin. separable 











e cons: works only 
if lin. separable, 
otherwise 

needing pocket 





至 此 ， 可 以 看 出 ， 求 解 regularized logistic regression 的 问题 等 同 于 求解 soft-margin 
SVM 的 问题 。 反 过 来 ， 如 果 我 们 求解 了 一 个 soft-margin/SVM 的 问题 ， 那 这 个 解 能 否 
直接 为 regularized logistic regression 所 用 ?” 来 预测 结果 是 正 类 的 几率 是 多 少 ， 就 像 
regularized logistic regression 做 的 一 样 。 我 们 下 一 小 节 将 来 解答 这 个 问题 。 


SVM for Soft Binary Classification 


接 下 来 ， 我 们 探讨 如 何 将 SVM 的 结果 应 用 在 Soft Binary Classification 中 ， 得 到 是 正 类 
的 概率 值 。 


第 一 种 简单 的 方法 是 先 得 到 SVM 的 解 (bswm, wsvm )， 然 后 直接 代入 到 logistic 
regression 中 ， 得 到 g(z) = O(whmt 十 bsvm )。 这 种 方法 直接 使 用 了 SVM 和 logistic 
regression 的 相似 性 ， 一 般 情况 下 表现 还 不 错 。 但 是 ， 这 种 形式 过 于 简单 ， 与 logistic 
regression 的 关联 不 大 ， 没 有 使 用 到 logistic regression 中 好 的 性 质 和 方法 。 


第 二 种 简单 的 方法 是 同样 先 得 到 SVM 的 解 (bsvm, wsom )， 然 后 把 (bsvm, wsvm ) 作 为 
logistic regression 的 初始 值 ， 再 进行 迭代 训练 修正 ， 速 度 比较 快 ， 最 后 ， 将 得 到 的 b 和 
w 代 入 到 g(x) 中 。 这 种 做 法 有 点 显得 多 此 一 举 ， 因 为 并 没有 比 直 接 使 用 logistic 


regression 快 捷 多 少 。 





Naive Idea 1 Naive Idea 2 





Q run SVM and get Q run SVM and get 
(bsvu, Wsvm) (Dsvu. Wsvm) 
@ return @ run LogReg with 
g(x) = 6(WiuuX + bsvu) (bsvm,Wsvm) as Wo 
© return LogReg solution as 
g(x) 
e ‘direct’ use of similarity e not really ‘easier’ than 
—works reasonably well original LogReg 
e no LogReg flavor e SVM flavor (kernel?) lost 


这 两 种 方法 都 没有 融合 SVM 和 logistic regression 各 自 的 优势 ， 下 面 构造 一 个 模型 ， 融 
合 了 二 者 的 优势 。 构 造 的 模型 g(x) 表 达 式 为 : 

g(x) = 0(A- (wom? (x) + bsum) + B) 
与 上 述 第 一 种 简单 方法 不 同 ， 我 们 额外 增加 了 放 缩 因子 A 和 平移 因子 B。 首 先 利用 SVM 
的 解 (b sum Usum ) 来 构造 这 个 模型 ， 放 缩 因 子 A 和 平移 因子 B 是 待定 系数 。 然 后 册 用 通 


用 的 logistic regression 优 化 算法 ， 通 过 和 迭代 优化 ， 得 到 最 终 的 A 和 B。 一 般 来 说 ， 如 果 
(Damis Usvm ) 较 为 合理 的 话 ， 满足 A>0 有 是 B zz 0. 


g(x) = KG à (wsvw 中 (X) 十 bsvw) L B) 


e SVM flavor: fix hyperplane direction by wsvw 一 kernel applies 
e LogReg flavor: fine-tune hyperplane to match maximum 
likelihood by scaling (A) and shifting (B) 
* often A > 0 if Wey, reasonably good 
e often B = 0 if bs, reasonably good 


那么 ， 新 的 logistic regression 表 达 式 为 : 
new LogReg Problem: 


N 
4 
min — x 3 log | 1+ exp | -yn(A- (W5vu®(xn) + bsvu ) + B) 


m 中 svw(Xn) 





这 个 表达 式 看 上 去 很 复杂 ， 其 实 其 中 的 (bswm, Wsvm ) 已 经 在 SVM 中 解 出 来 了 ， 实 际 上 
的 未 知 参数 只 有 A 和 B 两 个 。 归 纳 一 下 ， 这 种 Probabilistic SVM 的 做 法 分 为 三 个 步骤 : 





Platts Model of Probabilistic SVM for Soft Binary Classification 


© run SVM on D to get (bsvm, Wsvm) [or the equivalent a], and 
transform D to Z/, = Wl m ® (Xn) + bsvw 


@ run LogReg on ((Z,, y;)) ^. , to get (A. B) 


© return g(x) = 0(A- (wI,,, (x) + bsvm) + B) 


这 种 soft binary classifier 方 法 得 到 的 结果 跟 直 接 使 用 SVM classifier 得 到 的 结果 可 能 不 
一 样 ， 这 是 因为 我 们 引入 了 系数 A 和 B。 一 般 来 说，soft binary classifier 效 果 更 好 。 至 
于 logistic regression 的 解法 ， 可 以 选择 GD、SGD 等 等 。 


Kernel Logistic Regression 


上 一 小 节 我 们 介绍 的 是 通过 kernel SVM 在 z 空 间 中 求 得 logistic regression 的 近似 解 。 
如 果 我 们 希望 直接 在 z 空 间 中 直接 求解 logisticjregression， 通 过 引入 kernel， 来 解决 最 
优化 问题 ， 又 该 怎么 做 呢 ? SVM 中 使 用 kernel， 转 化 为 QP 问题 ， 进 行 求解 ， 但 是 
logistic regression 却 不 是 个 QP 问题 看 似 好 像 没 有 办 法 利用 kerne| 来 解决 。 


我 们 先 来 看 看 之 前 介绍 的 kerneltrick 为 什么 会 work，kernel trick 就 是 把 z 空 间 的 内 积 转 
换 到 x 空间 中 比较 容易 计算 的 函数 。 如 果 w 可 以 表示 为 z 的 线性 组 合 ， 即 

w, = Y3 4 Bn zi 的 形式 ， 那 么 乘积 项 

WIz 二 ny bnz = jn_1 BnK(zn,z)， 即 其 中 包含 了 z 的 内 积 。 也 就 是 w 可 
以 表示 为 z 的 线性 组 合 是 kernel trick 可 以 work 的 关键 。 


我 们 之 前 介绍 过 SVM、PLA 包 扩 logistic regression 都 可 以 表示 成 z 的 线性 组 合 ， 这 也 提 
供 了 一 种 可 能 ， 就 是 将 kernel 应 用 到 这 些 问题 中 去 ， 简 化 z 空 间 的 计算 难度 。 





LogReg by SGD 











N N N 
Wsvm = 》 (anyn)zn Weia = 》 (anyn)zn WiocnEG = X (anyn)zn 
n=1 n=1 n=1 
an from dual an by # mistake an by total SGD 
_ solutions corrections moves 





wy | 


有 这 样 一 个 理论 ， 对 于 L2-regularized linear model， 如 果 它 的 最 小 化 问题 形式 为 如 下 
的 话 ， 那 么 最 优 解 w; =J Bn zn。 


claim: for any L2-regularized linear model 


N 
SEE 
min NW w+ N 2, UY Zn) 


optimal w, = Y^; Bnzn. 


下 面 给 出 简单 的 证 明 ， 假 如 最 优 解 ww，。 二 wtw Bh, wy Fw, 分 别 是 平行 z 空 
间 和 垂直 z 空 间 的 部 分 。 我 们 需要 证 明 的 是 1 — 0。 利 用 反 证 法 ,假如 w |， 冯 0， 考 
虑 w, 与 的 比较 。 第 一 步 先 比较 最 小 化 问题 的 第 二 项 : 

err(y, We Zn) = err(ya, (Wy AW)” za = err(ys, Wi Zn), SMBS 
的 。 然 后 第 二 步 比 较 第 一 项 : wl w, = wi wi 十 2w wi = wtw > wi w , Bp 
w, XjINIBSL2-regularized linear model 值 要 比 wj 大， 这 就 说 明 w 并 不 是 最 优 解 ， 从 而 
证 明 w | 必然 等 于 零 ， 即 w。 = ON, Bn % 一 定 成 立 ，w, 一 定 可 以 写成 z 的 线性 组 合 
形式 。 


* let optimal w, = wy 十 WwW, where wj € span(zn) & w, 上 span(z;) 
—wantw, =0 
* what if not? Consider wy 
* of same err as W,: ert(Yn, WI Zn) = err( yn, (Wy + W1 ) "zn) 
* of smaller regularizer as W.: 
WW, = Ww) +2Wwiwi+Wwiw, > wiwy 
—w) ‘more optimal’ than w, (contradiction!) 


经 过 证 明和 分 析 ， 我 们 得 到 了 结论 是 任何 L2-regularized linear model 都 可 以 使 用 





kernel 来 解决 。 


现在 ， 我 们 来 看 看 如 何 把 kernel 应 用 在 L2-regularized logistic regression E, 上 面 我 们 
已 经 证 明了 ww, 一 定 可 以 写成 z 的 线性 组 合 形式 ， 即 ww =X] bazne BARAT 
无 需 一 定 求 出 w ， 而 只 要 求 出 其 中 的 i, 就行 了 。 怎 么 求 呢 ? 直接 将 


Wy = S Bn zn 代入 到 L2-regularized logistic regression 最 小 化 问题 中 ， 得 到 : 
solving L2-regularized logistic regression 
和 和 
$ wT T 
min NW w+ 2log (1 + exp ( yoW Zn)) 


yields optimal solution w, = Y" , Bzn 





with out loss of generality, can solve for optimal.3 instead of w 


A N WN 1 N N 
min = x A BnBmK (Xn, Xm) + N 2/99 ( 4 exp (- Yn a Mn 加 ) 


n=1 m=1 m=1 


—how? GD/SGD/... for unconstrained optimization 


—A 





上 式 中 ， 所 有 的 w 项 都 换 成 所 来 表示 了 ， 变 成 了 没有 条 件 限制 的 最 优化 问题 。 我 们 把 
这 种 问题 称 为 kernel logisticregression， 即 引入 kernel， 将 求 w 的 问题 转换 为 求 B;, 的 


问题 。 


从 另外 一 个 角度 来 看 Kernel Logistic Regression (KLR) : 


N N ] 1 N N 
min = » 2. BnBmK (Xn, Xm) + N 2. log (: + exp (- Yn 2. BmK(Xm; x) 
上 式 中 log 项 里 的 DN _， Bm K (Em, zx) 可 以 看 成 是 变量 B 入 (zw, zn ) 的 内 积 。 上 
式 第 一 项 中 的 ”1 六 Én Bim K (tn, Ym) 可 以 看 成 是 关于 PB 的 正则 化 项 87 KB 
。 所 以 ，KLR 是 6 的 线性 组 合 ， 其 中 包含 了 kernel 内 积 项 和 kernel regularizer。 这 与 
SVM 是 相似 的 形式 。 


但 值得 一 提 的 是 ，KLR 中 的 刀 与 SVM 中 的 an 是 有 区 别 的 。SVM 中 的 am 大 部 分 为 零 ， 





SV 的 个 数 通 常 是 比较 少 的 ; 而 KLR 中 的 Bi 通常 都 是 非 零 值 。 


总 结 


= 


本 节 课 主要 介绍 了 Kernel Logistic Regression。 首 先 把 Soft-Margin SVM 解释 成 
Regularized Model， 建 立 二 者 之 间 的 联系 ， 其 实 Soft-Margin SVM 就 是 一 个 L2- 
regularization， 对 应 着 hinge error messure。 然 后 利用 它们 之 间 的 相似 性 ， 讨 论 了 如 
何 利 用 SVM 的 解 来 得 到 Soft Binary Classification。 方 法 是 先 得 到 SVM 的 解 ， 再 在 
logistic regression 中 引入 参数 A 和 B， 和 迭代 训练 ， 得 到 最 佳 解 。 最 后 介绍 了 Kernel 
Logistic Regression， 证 明 L2-regularized logistic regression 中 ， 最 佳 解 w,, 一 定 可 以 
写成 z 的 线性 组 合 形式 ， 从 而 可 以 将 kernel 引 入 logistic regression 中 ， 使 用 kernel 思 想 
在 z 空 间 直接 求解 L2-regularized logistic regression 问 题 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《 机 器 学 习 技 法 六 课程 





林 轩 田 《 机 器 学 习 技 法》 课程 笔记 6 -- Support Vector 


Regression 


VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Kernel Logistic Regression， 讨 论 如 何 把 SVM 的 技巧 应 用 在 
soft-binary classification 上 。 方 法 是 使 用 2-level learning， 先 利用 SVM 得 到 参数 b 和 
w， 然 后 再 用 通用 的 logistic regression 优 化 算法 ， 通 过 迭代 优化 ， 对 参数 b 和 w 进 行 微 
调 ， 得 到 最 佳 解 。 然 后 ， 也 介绍 了 可 以 通过 Representer Theorem， 在 z 空 间 中 ， 引 入 
SVM 的 kernel 技 巧 ， 直 接 对 logistic regression 进 行 求解 。 本 节 课 将 延伸 上 节 课 的 内 
容 ， 讨 论 如何 将 SVM 的 kernel 技 巧 应 用 到 regression 问 题 上 。 


Kernel Ridge Regression 


首先 回顾 一 下 上 节 课 介绍 的 Representer Theorem， 对 于 任何 包含 正则 项 的 L2- 
regularized linear model， 它 的 最 佳 化 解 w 都 可 以 写成 是 z 的 线性 组 合 形式 ， 因 此 ， 也 
就 能 引入 kernelI 技 巧 ， 将 模型 kernelized 化 。 


for any L2-regularized linear model 


N 
: 入 1 
min NW WwW 十 y 2, m W Zo) 


optimal w, = Y" , Bnzn. 
一 any L2-regularized linear model can be kernelized! 


那么 如 何 将 regression 模 型 变 成 kerneI 的 形式 呢 ? 我 们 之 前 介绍 的 linear/ridge 
regression 最 常用 的 错误 估计 是 squared error, Blerr(y, w? z) = (y — wz). X 
种 形式 对 应 的 解 是 analytic solution， 即 可 以 使 用 线性 最 小 二 乘法 ， 通 过 向 量 运 算 ， 直 
接 得 到 最 优化 解 。 那 么 接 下 来 我 们 就 要 研究 如 何 将 kernel 引 入 到 ridge regression 中 
去 ， 得 到 与 之 对 应 的 analytic solution, 


我 们 先 把 Kernel Ridge Regression 问 题写 下 来 : 





N 
solving ridge regression min Aw Tw 4- tx E505 = 
NT 


yields optimal solution w, = x Bnd 
bue 


其 中 ， 最 佳 解 w; 必然 是 z 的 线性 组 合 。 那 么 我 们 就 把 w= 二 9E Bn zn 人 代入 到 ridge 
regression 中 ， 将 z 的 内 积 用 kernel 蔡 换 ， 把 求 w, 的 问题 转化 成 求 B;, 的 问题 ， 得 到 |: 


with out loss of generality, can solve for optimal 3 instead of w 


N N 1 N N 
min rr x M» BnBmK(Xn,X%m) — + T x (» = ys, Fok Un Xe) 2 
n=1 m-1 


n=1 m=1 


mae of 3 on K-based regularizer linear regression of 3 on K-based features 


= ABTKB+ L (8"K"Ka - 287kTy + yly) 


ridge regression 可 以 写成 矩阵 的 形式 ， 其 中 第 一 项 可 以 看 成 是 所 的 正则 项 ， 而 第 二 项 
可 以 看 成 是 所 的 error function。 这 样 ， 我 们 的 目的 就 是 求解 该 式 最 小 化 对 应 的 Bi, 值 ， 
这 样 就 解决 了 kernel ridge regression 问 题 


求解 Bu 的 问题 可 以 写成 如 下 形式 : 
Eauo(6) = NBTKB+w(BTKTKB -28'K'y +y'y) 

e N N 
2 


VEag(9) = $ (AK71 +K'KB— Ky) - S KT (Qu +k) - y) 


aug (PB) 是 关于 PB 的 二 次 多 项 式 ， 要 对 Bawg (6) 求 最 小 化 解 ， 这 种 凸 二 次 最 优化 问 
只 需要 先 计 算 其 梯度 ， 再 令 梯度 为 零 即 可 。V Bawg (PB) 已 经 在 上 式 中 写 出 来 了 ， 
令 其 等 于 零 ， 即 可 得 到 一 种 可 能 的 5 的 解析 解 为 : 


B-—(AI-K)ly 


这 里 需要 关心 的 问题 是 (和 J 十 五 ) 的 逆 和 矩阵 是 否 存在 ”答案 是 肯定 的 。 因 为 我 们 之 前 
介绍 过 ， 核 国 数 K 满 足 Mercers condition ， 它 是 半 正 定 的 ， 而 且 入 > 0， 所 以 

(AI + 长) 一 定 是 可 逆 的 。 从 计算 的 时 间 复 杂 上 来 说 ， d +K ia eed, Dr 
所 以 时 间 复 杂 度 是 O(N3)。 还 





K， 会 不 会 出 现 K=0 的 情况 呢 ?” 其 实 ， 由 于 核 函 数 K 表 征 的 是 z 空 间 的 内 积 ， 一 般 而 
言 ， 除 非 两 个 向 量 互相 垂直 ， 内 积 才 为 零 ， 否 则 ， 一 般 情 况 下 K 不 等 于 零 。 这 个 原因 
也 决定 了 (AT + K)Ædense matrix， 即 的 解 大 部 分 都 是 非 零 值 。 这 个 性 质 ， 我 们 之 
后 还 会 说 明 。 


所 以 说 ， 我 们 可 以 通过 kernel 来 解决 non-linear regression 的 问题 。 下 面 比较 一 下 linear 


ridge regression 和 kernel ridge regression 的 关系 。 


Pe The 


如 上 图 所 示 ， 左 边 是 linear ridge regression， 是 一 条 直线 ;右边 是 kernel ridge 
regression， 是 一 条 曲线 。 大 致 比较 一 下 ， 右 边 的 曲线 拟 合 的 效果 更 好 一 些 。 这 两 种 
regression 有 什么 样 的 优点 和 缺点 呢 ? xj-Tlinear ridge regression 来 说 ， 它 是 线性 模 
型 ， 只 能 拟 合 直线 ; 其 次 ， 它 的 训练 复杂 度 是 O(ds --d^N), ， 预 测 的 复杂 度 是 O(d) 
， 如 果 N 比 d 大 很 多 时 ， 这 种 模型 就 更 有 效率 。 而 对 于 kernel ridge regression 来 说 ,， 它 
转换 到 z 空 间 ， 使 用 kernel 技 巧 ， 得 到 的 是 非 线性 模型 ， 所 以 更 加 灵活 ; 其 次 ， 它 的 训 
练 复杂 度 是 O(NY ) ， 预 测 的 复杂 度 是 O(N)， 均 只 与 NA 有 关 。 当 N 很 大 的 时 候 ， 计 算 
EMRA, ATLA, kernel ridge regression 适 合 N 不 是 很 大 的 场合 。 比 较 下 来 ， 可 以 说 
linear 和 kernel 实 际 上 是 效率 (efficiency) 和 灵活 (flexibility) 之 间 的 权衡 。 


linear ridge regression 


kernel ridge regression 
B = (M-K)'!y 
e more flexible with K 
e O(N?) training; 
O(N) prediction 
一 hard for big data 


w = (MI 十 XI7X)- XIY 


e more restricted 

e O(d? + d?N) training; 
O(d) prediction 
—efficient when N > d 




















linear versus kernel: 
trade-off between efficiency and flexibility 


Support Vector Regression Primal 





我 们 在 机 器 学 习 基 石 课 程 中 介绍 过 linear regression 可 以 用 来 做 classification ， 那 么 上 
一 部 分 介绍 的 kernel ridge regression 同 样 可 以 来 做 classification。 我 们 把 kernel ridge 
regression 应 用 在 classification 上 取 个 新 的 名 字 ， 叫 做 leastrsquares 

SVM (LSSVM) 。 


先 来 看 一 下 对 于 某 个 问题 ，soft-margin Gaussian SVM 和 Gaussian LSSVM 结 果 有 哪 
些 不 一 样 的 地 方 。 














soft-margin Gaussian SVM Gaussian LSSVM 


如 上 图 所 示 ， 如 果 只 看 分 类 边界 的 话 ，soft-margin Gaussian SVM 和 Gaussian 
LSSVM 差 别 不 是 很 大 ， 即 的 到 的 分 类 线 是 几乎 相同 的 。 但 是 如 果 看 Support Vector 的 
话 (图 中 方 框 标注 的 点 ) ， 左 边 soft-margin Gaussian SVM 的 SV 不 多 ， 而 右边 
Gaussian LSSVM 中 基本 上 每 个 点 都 是 SVs 这 是 因为 soft-margin Gaussian SVM 中 的 
an 大 部 分 是 等 于 零 ，an > 0 的 点 只 占 少数 ， 所 以 SV 少 。 而 对 于 LSSVM, 我 们 上 一 
部 分 介绍 了 的 解 大 部 分 都 是 非 零 值 ， 所 以 对 应 的 每 个 点 基本 上 都 是 SV。SV 太 多 会 带 
来 一 个 问题 ， 就 是 做 预测 的 矩 g(z) = Dr BnK (an, c), WRG ARS, BB 
么 g 的 计算 量 也 比较 大 ， 人 降低 计算 速度 。 基 于 这 个 原因 ，soft-margin Gaussian SVM 更 
有 优势 。 


e LSSVM: similar boundary, many more SVs 
=> slower prediction, dense 9 (BIG g) 


e dense 3: LSSVM, kernel LogReg; 
sparse a: standard SVM 


那么 ， 针 对 LSSVM 中 dense 6 的 缺点 ， 我 们 能 不 能 使 用 一 些 方法 来 的 得 到 sparse p, 
使 得 SV 不 会 太 多 ， 从 而 得 到 和 soft-margin SVM 同 样 的 分 类 效果 呢 ? 下 面 我 们 将 尝试 
解决 这 个 问题 。 


方法 是 引入 一 个 叫做 Tube Regression 的 做 法 ， 即 在 分 类 线 上 下 分 别 划 定 一 个 区 域 





之 外 的 地 方才 算 error。 





假定 中 立 区 的 宽度 为 2e，e > 0, 那 么 error measure 就 可 以 写成 : 
err(y, s) = maz(0,|s — y| 一 6)， 对 应 上 图 中 红色 标注 的 距离 。 


error measure: 


em(y,s) = max(0,|S—y|—e) 
e |s—y|l<e:0 
。 |s—y|>e: |sryl—e 
—usually called <-insensitive error with « > 0 | 


通常 把 这 个 error 叫 做 e-insensitiye error， 这 种 max 的 形式 跟 我 们 上 节 课 中 介绍 的 hinge 
error measure 形 式 其 实 是 类 似 的 。 所 以 ， 我 们 接 下 来 要 做 的 事情 就 是 将 L2- 
regularized tube regression 做 类 似 于 soft-margin SVM 的 推导 ， 从 而 得 到 sparse 6. 


首先 ， 我 们 把 tube regression 中 的 error 与 squared error 做 个 比较 : 





tube: err(y, s) = max(0,|s — y| — e) | squared: err(y,s) = (s — yy? 


然后 ， 将 err(y,s) 与 s 的 关系 曲线 分 别 画 出 来 : 





一 Squared 
一 tube 


err tube ~ squared when |s — y| small 
& less affected by outliers | 


上 图 中 ， 红 色 的 线 表 示 squared error， 蓝 色 的 线 表 示 tube error。 我 们 发 现 ， 当 |s-y| 比 
较 小 即 s 比 较 接近 y 的 时 候 ，squared errorStube error 是 差不多 大 小 的 。 而 在 |s-y| 比 较 
大 的 区 域 ，squared error 的 增长 幅度 要 比 tube error 大 很 多 。error 的 增长 幅度 越 大 ， 表 
示 越 容易 受到 noise 的 影响 ， 不 利于 最 优化 问题 的 求解 。 所 以 ， 从 这 个 方面 来 看 ，tube 
regression 的 这 种 error function 要 更 好 一 些 。 


现在 ， 我 们 把 L2-Regularized Tube Regression 写 下 来 : 


N 
min Aww n> max (0, Iw7z, — y| — e) 


n=1 


一 一 一 一 -4 


这 个 最 优化 问题 ， 由 于 其 中 包含 max 项 ， 并 不 是 处 处 可 微分 的 ， 所 以 不 适合 
GD/SGD 来 求解 。 而 且 ， 虽 然 满足 representer theorem， 有 可 能 通过 引入 kerne| 来 求 
解 ， 但 是 也 并 不 能 保证 得 到 sparsity 6。 从 另 一 方面 考虑 ， 我 们 可 以 把 这 个 问题 转换 为 
带 条 件 的 QP 问题 ， 仿 照 dual SVM 的 推导 方法 ， 引 入 kernel， 得 到 KKT 条 件 ， 从 而 保证 
解 6 是 sparse 的 。 


Regularized Tube Regr. 


standard SVM 


min 4w^w + $ Y tube violation | min 2w^w + C» margin vio. 


e not differentiable, 
but GP 


e dual to kernelize, 
KKT conditions — sparsity 


* unconstrained, 
but max not differentiable 
* 'representer to kernelize, 
but no obvious sparsity 








所 以 ， 我 们 就 可 以 把 L2-Regularized Tube Regression 写 成 跟 SVM 类 似 的 形式 : 





will mimic standard SVM derivation: 


N 
* 1 a: T 
min aw w CY max (0. |w Zn +b- yn| - €) 


n=l 


值得 一 提 的 是 ， 系 数 入 和 C 是 反比 例 相关 的 ， 入 越 大 对 应 C 越 小 ， 入 越 小 对 应 C 越 大 。 而 
且 该 式 也 把 wo 即 b 单 独 拿 了 出 来 ， 这 跟 我 们 之 前 推导 SVM 的 解 的 方法 是 一 致 的 。 


现在 我 们 已 经 有 了 Standard Support Vector Regression 的 初始 形式 ， 这 还 是 不 是 一 个 
标准 的 QP 问题 。 我 们 继续 对 该 表达 式 做 一 些 转化 和 推导 : 


mimicking standard SVM 


making constraints linear 





N 
5w'w + 2A AET 


—e-& X y, —w'z, b e- £^ 
EY > 02 20 


N 
Tu mms 

min —w'w+C 

care 2 E df 

s.t. jw’ 2, + D—ynl € e-- £ 


n 20 








如 上 图 右边 所 示 ， 即 为 标准 的 QP 问 题 ; 其 中 6 和 & 分 别 表示 upper tube violations 和 
lower tube violations。 这 种 形式 叫做 Support Vector Regression (SVR) primal, 


N 
min ~W W+C EN + £^ 
b,w,év ‚£^ 2 2 | n + én) 
st. ee € yp W'z,- b e£ 


&¥ 20,£520 


SVR 的 标准 QP 形式 包含 几 个 重要 的 参数 : C 和 e。C 表 示 的 是 regularization 和 tube 
violation 之 间 的 权衡 。large C 倾 向 于 tube violation, small C 则 倾向 于 regularization。 
表征 了 tube 的 区 域 宽 度 ， 即 对 错误 点 的 容忍 程度 。e 越 大 ， 则 表示 对 错误 的 容忍 度 越 
大 。< 是 可 设置 的 常数 ， 是 SVR 问 题 中 独 有 的 ，SVM 中 没有 这 个 参数 。 另 外 ，SVR 的 
QP 形 式 共有 d 十 1 十 2V 个 参数 ，2N+2N 个 条 件 。 





* parameter C: trade-off of regularization & lo 
tube violation | 

e parameter e: vertical tube width 
—one more parameter to choose! 

e QP of d+ 1 + 2N variables, 2N + 2N 

constraints 





Support Vector Regression Dual 


现在 我 们 已 经 得 到 了 SVR 的 primal 形 式 ， 接 下 来 将 推导 SVR 的 Dual 形 式 。 首先, 与 
SVM 对 偶 形 式 一 样 ， 先 令 拉 格 朗 日 因子 wV 和 aA ， 分 别 是 与 EV 和 人 不 等 式 相对 应 。 
这 里 忽略 了 与 E > ofne > 0 对 应 的 拉 格 朗 日 因子 。 


N 
objective function sw'w LOS (EX + €) 
n=1 
Lagrange multiplier a for y, —w^"z;, —b c e- £^ 
Lagrange multiplier ay for.-—e — £; € yn — W'Zza — b 
然后 ， 与 SVM 一 样 做 同样 的 推导 和 化 简 ; 拉 格 朗 日 函数 对 相关 参数 偏 微分 为 零 ， 得 到 
相应 的 KKT 条 件 : 





Some of the KKT Conditions 


E x =(:w= Y (añ -ay)zn , SE mu Y (o4 - oi) =0 
7 m d n=1 
an(et+ $5 —Yn+W'Zn+b) = 0 
* complementary slackness: » 4 m TS a E P 0 
On E n n^ LIFE = 


接 下 来 ， 通 过 观察 SVM primal 与 SVM dual 的 参数 对 应 关系 ， 直 接 从 SVR primal 推 导出 
SVR dual 的 形式 。 (具体 数学 推导 ， 此 处 忽略 ! ) 





| 1 = 201 = 
min zw w +C én min Ww t C (65 6$) 
n=1 n=1 
st Yn(w'z, +b) >1-£n st 1(yn—w'2n — b) X e-- £^ 


i(w'z;,--b— yn) € e£ 
EA 20,6, 20 


sn 二 0 












N N 
min 5 (a4 -aX af — aX). 


n=1 m=1 


N N 
e 


n=1 m=1 


N 
— 10 
n=1 


N 
* Y ((e— yn): añ + (€ + Yn) - o5) 
n=1 


N N 
st 》 ynan =0 st > 1-(af —ay) 20 
n=1 n=1 


O<an<C O<ah <C,0<a¥Y<C 





最 后 ， 我 们 就 要 来 讨论 一 下 SVR 的 解 是 否 真 的 是 sparse 的 * 前 面 已 经 推导 了 SVR dual 
形式 下 推导 的 解 w 为 : 


N 
w= (o - an Jzn 
n=1 


相应 的 complementary slackness 为 : 


QMENSEA — y, --w'z,--b) = 0 
ante + EY + yn—w'z,—b) = 0 


对 于 分 布 在 tube 中 心 区 域内 的 点 ， 满 足 |wuz zx +b—yn| < e， 此 时 忽略 错误 ，&x 和 
& 人 都 等 于 零 。 则 complementary slackness 两 个 等 式 的 第 二 项 均 不 为 零 ， 必 然 得 到 
o^ = 0 和 ax = 0, B12, = o^ 一 oy 一 0。 


所 以 ， 对 于 分 布 在 tube 内 的 点 ， 得 到 的 解 B6,, = 0， 是 sparse 的 。 而 分 布 在 tube 之 外 的 
m, Br 7 0。 至 此 ， 我 们 就 得 到 了 SVR 的 sparse 解 。 


Summary of Kernel Models 


这 部 分 将 对 我 们 介绍 过 的 所 有 的 kernel 模 型 做 个 概括 和 总 结 。 我 们 总 共 介 绍 过 三 种 线 
性 模型 ， 分 别 是 PLA/pocket，regularized logistic regression 和 linear ridge 





库 函 数 来 解决 。 


另外 ， 我 们 介绍 了 linear soft-margin SVM， 其 中 的 error function 是 ef76ww,， 可 以 通过 
标准 的 QP 问题 来 求解 。linear soft-margin SVM 和 PLA/pocket 一 样 都 是 解决 同样 的 问 

题 。 然 后 ， 还 介绍 了 linear SVR 问 题 ， 它 与 linear ridge regression 一 样 都 是 解决 同样 

的 问题 ， 从 SVM 的 角度 ， 使 用 errtwpe ， 转 换 为 QP 问题 进行 求解 ， 这 也 是 我 们 本 节 课 
的 主要 内 容 。 


linear SVR 


minimize regularized 
errruee by QP 








PLA/pocket 
minimize 
erro/1 Specially 


















linear soft-margin 
SVM 

minimize regularized 
ErTsvw by QP 


linear ridge regularized logistic 
regression regression 


minimize regularized /| minimize regularized 
errsor analytically errce by GD/SGD 










second row: popular in LIBLINEAR ] 


上 图 中 相应 的 模型 也 可 以 转化 为 dual 形 式 ， 引 入 kernel， 整 体 的 框图 如 下 : 


PLA/pocket linear SVR 


linear soft-margin 
SVM 













linear ridge 
regression 


regularized logistic 
regression 
















kernel ridge 
regression 


kernelized linear ridge 
regression 


kernel logistic 
regression 


kernelized regularized 
logistic regression 


















probabilistic SVM 


run SVM-transformed 
logistic regression 






minimize SVM dual by 
QP 


minimize SVR dual by 
QP 





fourth row: popular in LIBSVM | 





其 中 SVM，SVR 和 probabilistic SVM 都 可 以 使 用 国立 台湾 大 学 的 Chih-Jen Lin 博 士 开 发 
的 LLibsvm 库 函数 来 解决 。 通 常 来 说， 这 些 模型 中 SVR 和 probabilistic SVM 最 为 常用 。 


总 结 


Tet | 


本 节 课 主要 介绍 了 SVR， 我 们 先 通 过 representer theorem 理 论 ， 将 ridge regression 转 
化 为 kernel 的 形式 ， 即 kernel ridge regression， 并 推导 了 SVR 的 解 。 但 是 得 到 的 解 是 
dense 的 ， 大 部 分 为 非 零 值 。 所 以 ， 我 们 定义 新 的 tube regression， 使 用 SVM 的 推导 
方法 ， 来 最 小 化 regularized tube errors， 转 化 为 对 偶 形式 ， 得 到 了 sparse 的 解 。 最 

后 ， 我 们 对 介绍 过 的 所 有 kernel 模 型 做 个 总 结 ， 简 单 概述 了 各 自 的 特点 。 在 实际 应 用 


中 ， 我 们 要 根据 不 同 的 问题 进行 合适 的 模型 选择 。 
注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》; 课 程 





林 轩 田 《 机 器 学 习 技 法 》 课 程 笔记 7 -- Blending and 
Bagging 


作者 : 红色 石头 ARE: AI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Support Vector Regression, kernel model 引 入 到 regression 
中 。 首 先 ， 通 过 将 ridge regression 和 representer theorem 结 合 起 来 ， 得 到 kernel ridge 
regression。 但 是 其 解 是 dense 的 ， 即 不 部 分 不 为 零 。 为 了 得 到 sparse 解 ， 我 们 将 
regularized tube error 和 Lagrange dual 结 合 起 来 ， 利 用 SVM dual 的 推导 方法 ， 得 到 
support vector regression 的 sparse 解 。 本 系列 1-6 节 课 主 要 介绍 Kernel Models 及 其 应 
用 ， 从 本 节 课 开始 ， 讲 介绍 Aggregation Models， 即 如 何 将 不 同 的 hypothesis 和 
features 结 合 起 来 ， 让 模型 更 好 。 本 节 课 将 介绍 其 中 的 两 个 方法 ， 一 个 是 Blending， 一 


个 是 Bagging。 


Motivation of Aggregation 


首先 举 个 例子 来 说 明 为 什么 要 使 用 Aggregation。 假 如 你 有 T 个 朋友 ， 每 个 朋友 向 你 预 
测 推荐 明天 某 支 股票 会 涨 还 是 会 跌 , ?对 应 的 建议 分 别 是 gl , go,---, gr ， 那 么 你 该 选 
择 哪个 朋友 的 建议 呢 ? 即 最 终 选 择 对 股票 预测 的 gi (z) 是 什么 样 的 ? 


第 一 种 方法 是 从 T 个 朋友 中 选择 一 个 最 受信 任 ， 对 股票 预测 能 力 最 强 的 人 ， 直 接听 从 
他 的 建议 就 好 。 这 是 一 种 普遍 的 做 法 ， 对 应 的 就 是 validation 思 想 ， 即 选择 犯错 误 最 小 
的 模型 。 第 二 种 方法 ， 如 果 每 个 朋友 在 股票 预测 方面 都 是 比较 厉害 的 ， 都 有 各 自 的 专 
长 ， 那 么 就 同时 考虑 T 个 朋友 的 建议 ， 将 所 有 结果 做 个 投票 ， 一 人 一 票 ， 最 终 决 定 出 

对 该 支 股票 的 预测 。 这 种 方法 对 应 的 是 uniformly 思 想 。 第 三 种 方法 ， 如 果 每 个 朋友 水 
平 不 一 ， 有 的 比较 厉害 ， 投 票 比重 应 该 更 大 一 些 ， 有 的 比较 差 ， 投 票 比重 应 该 更 小 一 
些 。 那 么 ， 仍 然 对 T 个 朋友 进行 投票 ， 只 是 每 个 人 的 投票 权重 不 同 。 这 种 方法 对 应 的 

是 non-uniformly 的 思想 。 第 四 种 方法 与 第 三 种 方法 类 似 ， 但 是 权重 不 是 固定 的 ， 根 据 
不 同 的 条 件 ， 给 予 不 同 的 权重 。 比 如 如 果 是 传统 行业 的 股票 ， 那 么 给 这 方面 比较 厉害 
的 朋友 较 高 的 投票 权重 ， 如 果 是 服务 行业 ， 那 么 就 给 这 方面 比较 厉害 的 朋友 较 高 的 投 
票 权 重 。 以 上 所 述 的 这 四 种 方法 都 是 将 不 同人 不 同意 见 融合 起 来 的 方式 ， 接 下 来 我 们 
就 要 讨论 如 何 将 这 些 做 法 对 应 到 机 器 学 习 中 去 。Aggregation 的 思想 与 这 个 例子 是 类 似 
的 ， 即 把 多 个 hypothesis 结 合 起 来 ， 得 到 更 好 的 预测 效果 。 








e select the most trust-worthy friend from their usual performance 
—validation! 


e mix the predictions from all your friends uniformly 
—let them vote! 


e mix the predictions from all your friends non-uniformly 
—let them vote, but give some more ballots 


e combine the predictions conditionally 
— if [t satisfies some condition] give some ballots to friend t 


将 刚刚 举 的 例子 的 各 种 方法 用 数学 化 的 语言 和 机 器 学 习 符号 归纳 表示 出 来 ， 其 中 G(x) 
表示 最 终 选 择 的 模型 。 
第 一 种 方法 对 应 的 模型 : 
G(x) = gi, (x) with t, = argminter.,...7 Eva (g; ) 

第 二 种 方法 对 应 的 模型 : 

T 

G(x) = sign(Y 1: g: (2)) 
t=1 


第 三 种 方法 对 应 的 模型 : 
T 
G(x) = sign( >_ ar - gr(x)) with a; > 0 
t=1 


第 四 种 方法 对 应 的 模型 : 


G(x) = sign(》 ， q(x) - g:(x)) with q(x) > 0 


t=1 





e select the most trust-worthy friend from their usual performance 
G(x) = gi. (X) with t, = argmin,c (45 .. rj Eva(9; ) 
e mix the predictions from all your friends uniformly 
G(x) = sign (D1 1 - 9x) 
e mix the predictions from all your friends non-uniformly 
G(X) — sign (Ze Qt gi(x) ) with a; > 0 

e include select: a; = | Evai(g; ) smallest] 

e include uniformly: o, = 1 
e combine the predictions conditionally 

G(x) = sign (D1 a(x) - g(x)) with g(x) > 0 


e include non-uniformly: Q(X) = a; 


注意 这 里 提 到 的 第 一 种 方法 是 通过 验证 集 来 选择 最 佳 模 型 , AREA En (gi ) 来 代替 
ual (9: )。 经 过 Validation， 选 择 最 小 的 Boy， 保证 Boit 最 小 ， 从 而 将 对 应 的 模型 作 
为 最 佳 的 选择 。 


但 是 第 一 种 方法 只 是 从 众多 可 能 的 hypothesis 中 选择 最 好 的 模型 ， 并 不 能 发 挥 集体 的 
智慧 。 而 Aggregation 的 思想 是 博采众长 “将 可 能 的 hypothesis 优 势 集合 起 来 ， 将 集体 
智慧 融合 起 来 ， 使 预测 模型 达到 更 好 的 效果 。 


下 面 先 来 看 一 个 例子 ， 通 过 这 个 例子 说 明 为 什么 Aggregation 能 work 得 更 好 。 





如 上 图 所 示 ， 和 平面 上 分 布 着 一 些 待 分 类 的 点 。 如 果 要 求 只 能 用 一 条 水 平 的 线 或 者 垂直 
的 线 进 行 分 类 ， 那 不 论坛 么 选取 直线 ， 都 达 不 到 最 佳 的 分 类 效果 。 这 实际 上 就 是 上 面 
介绍 的 第 一 种 方法 : validation。 但 是 ， 如 果 可 以 使 用 集体 智慧 ， 比 如 一 条 水 平 线 和 两 
条 垂直 线 组 合 而 成 的 图 中 折线 形式 ， 就 可 以 将 所 有 的 点 完全 分 开 ， 得 到 了 最 优化 的 预 
测 模 型 。 





这 个 例子 表明 ， 通 过 将 不 同 的 hypotheses 均 匀 地 结合 起 来 ， 得 到 了 比 单 一 hypothesis 
更 好 的 预测 模型 。 这 就 是 aggregation 的 优势 所 在 ， 它 提高 了 预测 模型 的 power， 起 到 
了 特征 转换 (feature transform) 的 效果 。 


e mix different weak 
hypotheses uniformly 
—G(x) ‘strong’ 

e aggregation 
=> feature transform (?) | 


我 们 再 从 另外 一 方面 来 看 ， 同 样 是 平面 上 分 布 着 一 些 待 分 类 的 点 ， 使 用 PLA 算 法 ， 可 
以 得 到 很 多 满足 条 件 的 分 类 线 ， 如 下 图 所 示 : 





这 无 数 条 PLA 选 择 出 来 的 直线 对 应 的 hypothesis 都 是 满足 分 类 要 求 的。 但 是 我 们 最 想 
得 到 的 分 类 直线 是 中 间 那 条 距离 所 有 点 都 比较 远 的 黑色 直线 ， 这 与 之 前 SVM 目标 是 一 
致 的 。 如 果 我 们 将 所 有 可 能 的 hypothesis 结 合 起 来 ， 以 投票 的 方式 进行 组 合 选择 ， 最 
终 会 发 现 投票 得 到 的 分 类 线 就 是 中 间 和 黑色 那 条 。 这 从 哲学 的 角度 来 说 ， 就 是 对 各 种 
效果 较 好 的 可 能 性 进行 组 合 ， 得 到 的 结果 一 般 是 中 庸 的 、 最 合适 的 ， 即 对 应 图 中 那 条 
黑色 直线 。 所 以 ，aggregation 也 起 到 了 正则 化 (regularization) 的 效果 ， 让 预测 模型 
更 具有 代表 性 。 





e mix different random-PLA 
hypotheses uniformly 
—G(x) ‘moderate’ 

e aggregation 
=> regularization (7?) 


基于 以 上 的 两 个 例子 ， 我 们 得 到 了 aggregation 的 两 个 优势 : feature transform 和 
regularization。 我 们 之 前 在 机 器 学 习 基 石 课程 中 就 介绍 过 ，feature transform 和 
regularization 是 对 立 的 ， 还 把 它们 分 别 比 作 踩 油门 和 踩 刹 车 。 如 果 进 行 feature 
transform， 那 么 regularization 的 效果 通常 很 差 ， 反 之 亦 然 。 也 就 是 说 ， 单 一 模型 通常 
只 能 倾向 于 feature transform 和 regularization 之 一 ， 在 两 者 之 间 做 个 权衡 。 但 是 
aggregation 却 能 将 feature transform 和 regularization 各 自 的 优势 结合 起 来 ， 好 比 把 油 
门 和 刹车 都 控制 得 很 好 ， 从 而 得 到 不 错 的 预测 模型 。 


Uniform Blending 


那 对 于 我 们 已 经 选择 的 性 能 较 好 的 一 些 矩 9 ， 如 何 将 它们 进行 整合 、 合 并 ， 来 得 到 最 
在 的 预测 模型 呢 ? 这 个 过 程 称 为 blendings 


最 常用 的 一 种 方法 是 uniform blending， 应 用 于 classification 分 类 问题 ， 做 法 是 将 每 一 
个 可 能 的 和 矩 赋予 权重 1， 进 行 投 票 ， 得 到 的 G(x) 表 示 为 : 


g(x) = sign() | 1- g(x) 


这 种 方法 对 应 三 种 情况 : 第 一 种 情况 是 每 个 候选 的 矩 9 都 完全 一 样 ， 这 跟 选 其 中 任意 
一 个 % 效 果 相 同 ; 第 二 种 情况 是 每 个 候选 的 矩 %: 都 有 一 些 差 别 ， 这 是 最 带 遇 到 的 ， 大 
都 可 以 通过 投票 的 形式 使 多 数 意见 修正 少数 意见 ， 从 而 得 到 很 好 的 模型 ， 如 下 图 所 
示 ; 第 三 种 情况 是 多 分 类 问题 ， 选 择 投票 数 最 多 的 那 一 类 即 可 。 





e same g; (autocracy): 
as good as one single g; 


e very different g; (diversity + democracy): x E 
majority can correct minority p o 
e Similar results with uniform voting for a [a 
multiclass x OO 
n y 7 








G(x) = argmax Y^ [eu(x) = k] 
1<k<K 12 


如 果 是 regression 回 归 问 题 ，uniform blendingBS GA 4R(S)EB, MEAE g 求 平 
均值 : 


Gla) = 5 ale) 


uniform blending for regression 对 应 两 种 情况 : 第 一 种 情况 是 每 个 候选 的 矩 %: 都 完全 
一 样 ， 这 跟 选 其 中 任意 一 个 % 效 果 相 同 ; 第 二 种 情况 是 每 个 候选 的 矩 % 都 有 一 些 差 
别 ， 有 的 % > f(x), 389g. < f(x)， 此 时 求 平均 值 的 操作 可 能 会 消去 这 种 大 于 和 
小 于 的 影响 ， 从 而 得 到 更 好 的 回归 模型 。 因 此 ， 从 直觉 上 来 说 ， 求 平均 值 的 操作 更 加 
稳定 ， 更 加 准确 。 


e same g; (autocracy): 
as good as one single g; 


e very different g; (diversity + democracy): 
some g;(X) > f(x), some g;(x) < f(x) 
=> average could be more accurate than individual 


对 于 uniform blending， 一 般 要 求 每 个 候选 的 矩 g: 都 有 一 些 差 别 。 这 样 ， 通 过 不 同 矩 qr 
的 组 合 和 集体 智慧 ， 都 能 得 到 比 单 一 矩 % 更 好 的 模型 。 


刚才 我 们 提 到 了 uniform blending for regression 中 ， 计 算 gi 的 平均 值 可 能 比 单一 的 gt 
更 稳定 ， 更 准确 。 下 面 进行 简单 的 推导 和 证 明 。 





avg ((gix) —f(x))) = avg (gr —2g:f + f°) 
= avg(gi) -2Gf +f 
= avg(g))- G «-(G-fyf 
= avg(g7) -2G^ 4 G* « (G- f? 
= avg(g; -2g(G- G^)  (G- f 
= avg((g- G)*) - (G- ff 


推导 过 程 中 注意 G(t) = avg(gt )。 经 过 推导 ， 我 们 发 现 avg((gi (x) 一 f(x))?)*s 
(G 一 用 ?之 间 差 了 avg((g% 一 G)?) 项 ， 且 是 大 于 零 的 。 从 而 得 到 g; 与 目标 函数 人 的 差 
值 要 比 G 与 {的 差 值 大 。 


刚才 是 对 单一 的 x 进行 证 明 ， 如 果 从 期 望 角度 ， 对 整个 x 分 布 进行 上 述 公 式 的 整理 ,得 
到 : 


avg(Eou(g)) = avg (Elg: >G)*) + Eou(G) 


> + Eout(G) 


从 结果 上 来 看 ，avg( Bowut (9 二 五 ai(C)， 从 而 证 明了 从 平均 上 来 说 ， 计 算 % 的 
平均 值 G 要 比 单 一 的 % 更 接近 目标 国 数 f，regression 效 果 更 好 。 


我 们 已 经 知道 G 是 数目 为 T 的 g% 的 平均 值 。 令 包含 N 个 数据 的 样本 D 独 立 同 分 布 于 已” 
， 每 次 从 新 的 Di 中 学 习 得 到 新 的 g; ， 在 对 % 求 平均 得 到 G， 当 做 无 限 多 次 ， 即 T 趋 向 
于 无 穷 大 的 时 候 : 


"E T 
g = limT>% G = limr ye 元 29 一 cp4(D) 
t=1 
consider a virtual iterative process that for t = 1,2,..., T 
Q request size-N data Di from P" (i.i.d.) 


© obtain g: by .A(D:) 


T—oo 


= 
9 = im G= jim = 7 0 -$ AD) 





当 T 趋 于 无 穷 大 的 时 候 ，C — 9， 则 有 如 下 等 式 成 立 : 


avg (Eout(gt)) = avg (Elg: - 3)*) + Eour(5) 
expected performance of A = expected deviation to consensus 
+performance of consensus 


e performance of consensus: called bias 
e expected deviation to consensus: called variance 


上 述 等 式 中 左边 表示 演算 法 误差 的 期 望 值 ;) 右边 第 二 项 表示 不 同 % 的 平均 误差 共识 ， 
用 偏差 bias 表 示 ; 右边 第 一 项 表示 不 同 % 与 共识 的 差距 是 多 少 ， 反 映 9%: 之 间 的 偏差 ， 

用 方差 variance 表 示 。 也 就 是 说 ， 一 个 演算 法 的 平均 表现 可 以 被 拆 成 两 项 ， 一 个 是 所 
有 4% 的 共识 ， 一 个 是 不 同 % 之 间 的 差距 是 多 少 ， 即 bias 和 variance。 而 uniform 
blending 的 操作 时 求 平均 的 过 程 ， 这 样 就 削减 弱化 了 上 式 第 一 项 variance 的 值 ， 从 而 演 
算法 的 表现 就 更 好 了 ， 能 得 到 更 加 稳定 的 表现 。 


Linear and Any Blending 


上 一 部 分 讲 的 是 uniform blending， 即 每 个 gt 所 占 的 权重 都 是 1， 求 平均 的 思想 。 下 面 
我 们 将 介绍 linear blending， 每 个 % 赋予 的 权重 a; 并 不 相同 ， 其 中 ay > 0。 我 们 最 终 
得 到 的 预测 结果 等 于 所 有 gi 的 线性 组 合 。 


linear blending: known g:, each to be given a+ ballot 


F 


G(x) = sign (De ao) with a; > 0 


i 


如 何 确定 a 的 值 ， 方 法 是 利用 误差 最 小 化 的 思想 ， 找 出 最 佳 的 at EEn (a ) 取 最 小 
值 。 例 如 对 于 linear blending for regression, Ein (a) 可 以 写成 下 图 左边 形式 ， 其 中 
Qt 是 带 求 解 参数 ，gi (Zn ) 是 每 个 矩 得 到 的 预测 值 ， 由 已 知 矩 得 到 。 这 种 形式 很 类 似 于 
下 图 右边 的 形式 ， 即 加 上 特征 转换 9; (x, ) 的 linear regression 模 型 。 两 个 式 子 中 的 
gt (zn ) 对 应 于 9; (xn )， 唯 一 不 同 的 就 是 linear blending for regression 中 Q > 0, 而 


linear regression 中 2w; 没 有 限制 |。 





computing ‘good’ a; : min Enla) 











linear blending for regression LinReg + transformation 


, 5 
min zc r9 (^ - 2. L 


n=1 






N 


2 
T 
2043 
min x 2. (^ - 3 L 





like two-level learning, remember? :-) 


linear blending = LinModel + hypotheses as transform + constraints 


这 种 求解 a 的 方法 就 像 是 使 用 two-level learning， 类 似 于 我 们 之 前 介绍 的 probabilistic 
SVM。 这 里 ,我 们 先 计算 gi (zn )， 再 进行 inear regression 得 到 oa 值 。 总 的 来 说 ， 
linear blending 由 三 个 部 分 组 成 : LinModel, hypotheses as transform, constraints, 
其 中 值得 注意 的 一 点 就 是 ， 计 算 过 程 中 可 以 把 gi 当成 featuretransform ， 求 解 过 程 就 
跟 之 前 没有 什么 不 同 ， 除 了 a > 0 的 条 件 限制 。 


linear blending = LinModel + hypotheses as transform + constraints: 
1 T 
min yy 2. err (». 2. gm 


我 们 来 看 一 下 linear blending 中 的 constraint a, > 0。 这 个 条 件 是 否 一 定 要 成 立 呢 ? 如 
Ra, < 0， 会 带 来 什么 后 果 呢 ?其实 ay < 0 并 不 会 影响 分 类 效果 ， 只 需要 将 正 类 看 
成 负 类 ， 负 类 当成 正 类 即 可 。 例 如 分 类 问题 ， 判 断 该 点 是 正 类 对 应 的 at < 0， 则 它 就 
表示 该 点 是 负 类 ， 且 对 应 的 一 at > 0。 如 果 我 们 说 这 个 样本 是 正 类 的 概率 是 -99%， 
意思 也 就 是 说 该 样本 是 负 类 的 概率 是 99%。at > Oflo, < 0 的 效果 是 等 同 的 一 致 
的 。 所 以 ， 我 们 可 以 把 a > 0 这 个 条 件 舍 去 ， 这 样 linear blending 就 可 以 使 用 常规 方 
法 求解 。 





linear blending for binary classification 





ifo; «0 一 ”atgt(x) = |ar| (—9r(X)) 
e negative œ; for g; = positive |^; for —g; 
e if you have a stock up/down classifier with 99% error, tell me! 
:-) 


in practice, often 
linear blending = LinModel + hypotheses as transform x zeeexinis 





Linear Blending 中 使 用 的 gi 是 通过 模型 选择 而 得 到 的 ， 利 用 validation， 从 Dirain 中 得 
到 gi ,93 s 红 。 然 后 将 Diroin 中 每 个 数据 点 经 过 各 个 矩 的 计算 得 到 的 值 ， 代 入 到 
相应 的 linear blending 计 算 公式 中 ， 迁 代 优化 得 到 对 应 a 值 最终， 再 利用 所 有 样本 数 
据 ， 得 到 新 的 % 代 蔡 9; ， 则 G( 就 是 g, 的 线性 组 合 而 不 是 97 ， 系 数 是 av 。 


in practice, often 
gı € H1, 92 € H2.....gr € Hr 
by minimum Ej, 


e recall: selection by minimum Ein 
i 
一 best of best, paying dve ( U H) 
f= 


e recall: linear blending includes selection as special case 
一 by setting o = [E,ai(g; ) smallest] 
e complexity price of linear blending with En (aggregation of best): 


"e (ü*) 





like selection, blending practically done with 
(Evai instead of Ein) + (g; from minimum Etrain) 





Given g; , 95 , ..., 97 from Dyain, transform (Xp, Yn) in Dyar to 
(Zn = ® (Xn), Yn), where 中 (x) = (9; (X).....97 (X) 


Linear Blending 


Q compute a 
= LinearModel ( (zr. yn)} ) 


O return Gune(x) = 
LinearHypothesis,, (®(x)), 


Any Blending ( 
© compute 5 
- AnyModel ({ zs. yn)}) 

© return Ganve(X) = 9((x)), 



















where ©(x) = (91(x),-.-.97(X)) 


any blending: 
e powerful, achieves conditional blending 
e but danger of overfitting, as always :-( 


BRS linear blending 之 外 ， 还 可 以 使 用 任意 形式 的 blending。 linear blendingFR, G(t)& 
g(t) 的 线性 组 合 ; any blending 中 ，G( 可 以 是 glt) 的 任何 阔 数 形式 (JEE) 。 这 种 形 
式 的 blending 也 叫做 Stacking。any blending 的 优点 是 模型 复杂 度 提高 ， 更 容易 获得 更 
好 的 预测 模型 ， 缺 点 是 复杂 模型 也 容易 带 来 过 拟 合 的 危险 。 所 以 ， 在 使 用 any 
blending 的 过 程 中 要 时 刻 注意 避免 过 拟 合 皮 生 ， 通 过 采用 regularization 的 方法 ， 让 模 
型 具有 更 好 的 泛 化 能 力 。 


Bagging(Bootstrap Aggregation) 


Bee — FEAR, blending oA stes CEGSIBJSBg:itíTaggregateB He 
作 。 上 有 具体 的 aggregation 形 式 包括 : uniform, non-unifornf[lconditional, 


blending: aggregate after getting gi; 
learning: aggregate as well as getting g: 


aggregation type blending learning 
uniform | voting/averaging ? 
non-uniform || ^ linea | ? 
conditional stacking ? 


A 


现在 考虑 一 个 问题 : 如 何 得 到 不 同 的 gt 呢 ? 可 以 选取 不 同 模型 H; 可 以 设置 不 同 的 参 
数 ， 例 如 7、 和 迭代 次 数 n 等 ; 可 以 由 算法 的 随机 性 得 到 ， 例 如 PLA、 随 机 种 子 等 ;可 以 
选择 不 同 的 数据 样本 等 。 这 些 方法 都 可 能 得 到 不 同 的 gi。 





learning g; for uniform aggregation: diversity important 
e diversity by different models: g; € H1,92 € H2.....gr € Hr 
e diversity by different parameters: GD with 7 = 0.001, 0.01, ..., 10 


e diversity by algorithmic randomness: 
random PLA with different random seeds 


e diversity by data randomness: 
within-cross-validation hypotheses g, 


那 如 何 利用 已 有 的 一 份 数据 集 来 构造 出 不 同 的 % UE? 首先 ， 我 们 回顾 一 下 之 前 介绍 的 
bias-variance， 即 一 个 演算 法 的 平均 表现 可 以 被 拆 成 两 项 ， 一 个 是 所 有 gi 的 共识 
(bias) ， 一 个 是 不 同 % 之 间 的 差距 是 多 少 (variance) 。 其 中 每 个 gi 都 是 需要 新 的 
数据 集 的 。 只 有 一 份 数据 集 的 情况 下 ， 如 何 构造 新 的 数据 集 ? 


expected performance of A = expected deviation to consensus 
+performance of consensus 
consensus 5 = expected g; from D; ~ PN 


其 中 ，9 是 在 矩 个 数 T 趋 向 于 无 穷 大 的 时 候 ， 不 同 的 % 计算 平均 得 到 的 值 。 这 里 我 们 为 
了 得 到 9， 做 两 个 近似 条 件 : 


。 有 限 的 T; 
。 由 已 有 数据 集 D 构 造 出 D: PM， 独立 同 分 布 


第 一 个 条 件 没有 问题 ， 第 二 个 近似 条 件 的 做 法 就 是 bootstrapping。bootstrapping 是 统 
计 学 的 一 个 工具 ， 思 想 就 是 从 已 有 数据 集 D 中 模拟 出 其 他 类 似 的 样本 Di。 


* consensus more stable than direct A(D), 
but comes from many more 7, than the D on hand 
e want: approximate 9 by 
e finite (large) T 
* approximate g; = A(D;) from D, ~ P" using only D 





bootstrapping: a statistical tool that 
re-samples from D to ‘simulate’ D; ] 








bootstrapping 的 做 法 是 ， 假 设 有 N 笔 资料 ， 先 从 中 选 出 一 个 样本 ， 再 放 回去 ， 再 选择 
一 个 样本 ， 再 放 回去 ， 共 重复 N 次 。 这 样 我 们 就 得 到 了 一 个 新 的 N 笔 资料 ， 这 个 新 的 
方 ;中 可 能 包含 原 D 里 的 重复 样本 点 ， 也 可 能 没有 原 D 里 的 某 些 样本 ， 力 ,与 D 类 似 但 又 
不 完全 相同 。 值 得 一 提 的 是 ， 抽 取 - 放 回 的 操作 不 一 定 非 要 是 N， 次 数 可 以 任意 设 定 。 
例如 原始 样本 有 10000 个 ， 我 们 可 以 抽取 - 放 回 3000 次 ， 得 到 包含 3000 个 样本 的 万, 也 
是 完全 可 以 的 。 利 用 bootstrap 进 行 aggragation 的 操作 就 被 称 为 bagging。 


virtual aggregation 





consider a virtual iterative consider a physical iterative 
process that for t = 1,2,..., T process that for t = 1,2,..., T 
© request size-N data Dr © request size-N data D; 
from PN (i.i.d.) from bootstrapping 
© obtain g: by A(Dt) O obtain g; by .A(D:) 
G = Uniform(19g;) G = Uniform(19g:)) 


下 面 举 个 实际 中 Bagging Pocket 算 法 的 例子 。 如 下 图 所 示 ， 先 通过 bootstrapping 得 到 
25 个 不 同样 本 集 ， 再 使 用 pocket 算 法 得 到 25 个 不 同 的 g: ， 每 个 pocket 算 法 迭代 1000 
次 。 最 后 ， 再 利用 blending， 将 所 有 的 gx 融合 起 来 ， 得 到 最 终 的 分 类 线 ， 如 图 中 黑 线 
所 示 。 可 以 看 出 ， 虽 然 bootstrapping 会 得 到 差别 很 大 的 分 类 线 (kA) ， 但 是 经 过 
blending 后 ， 得 到 的 分 类 线 效果 是 不 错 的 ， 则 bagging 通 常 能 得 到 最 佳 的 分 类 模型 。 








Teocker = 1000; Teac = 25 


值得 注意 的 是 ， 只 有 当 演 算法 对 数据 样本 分 布 比较 敏感 的 情况 下 ， 才 有 比较 好 的 表 
现 。 





总 结 


本 节 课 主要 介绍 了 blending 和 bagging 的 方法 ， 它 们 都 属于 aggregation ， 即 将 不 同 的 
qt 合并 起 来 ， 利 用 集体 的 智慧 得 到 更 加 优化 的 G(t)。Blending 通 常 分 为 三 种 情况 : 
Uniform Blending，Linear Blending 和 Any Blending。 其 中 ，uniform blending 采 样 最 
简单 的 一 人 一 票 * 的 方法 ，linear blending 和 any blending 都 采用 标准 的 two-level 
learning 方 法 ， 类 似 于 特征 转换 的 操作 ， 来 得 到 不 同 gi 的 线性 组 合 或 非 线 性 组 合 。 最 
后 ,我 们 介绍 了 如 何 利用 bagging (bootstrap aggregation) ， 从 已 有 数据 集 D 中 模拟 
出 其 他 类 似 的 样本 Di;， 而 得 到 不 同 的 g; ， 再 合并 起 来 ， 优 化 预测 模型 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 





林 轩 田 《 机 器 学 习 技 法 》 课 程 笔记 8 -- Adaptive 


Boosting 


VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 开始 介绍 Aggregation Models， 目 的 是 将 不 同 的 hypothesis 得 到 的 ge 
集合 起 来 ， 利 用 集体 智慧 得 到 更 好 的 预测 模型 G。 首 先 我 们 介绍 了 Blending，blending 
是 将 已 存在 的 所 有 gi 结合 起 来 ， 可 以 是 uniformly，linearly， 或 者 non-linearly 组 合 形 
式 。 然 后 ， 我 们 讨论 了 在 没有 那么 多 gi 的 情况 下 ， 使 用 bootstrap 方 式 ， 从 已 有 数据 集 
中 得 到 新 的 类 似 的 数据 集 ， 从 而 得 到 不 同 的 g:。 这 种 做 法 称 为 Dagging。 本 节 课 将 继续 
从 这 些 概念 出 友 ， 介 绍 一 种 新 的 演算 法 。 


Motivation of Boosting 


我 们 先 来 看 一 个 简单 的 识别 苹果 的 例子 ， 老 师 展 示 20 张 图 片 ， 让 6 岁 孩 子 们 通过 观 
察 ， 判 断 其 中 哪些 图 片 的 内 容 是 苹果 。 从 判断 的 过 程 中 推导 如 何 解决 二 元 分 类 问题 的 
方法 。 

显然 这 是 一 个 监督 式 学 习 ，20 张 图 片 包括 它 的 标签 都 是 已 知 的。 首先 ， 学 生 MichaeI 回 
Sin: 所 有 的 苹果 应 该 是 圆 形 的 。 根 据 Michael 的 判断 ， 对 应 到 20 张 图 片 中 去 ， 大 部 分 
苹果 能 被 识别 出 来 ， 但 也 有 错误 。 其 中 错误 包括 有 的 苹果 不 是 圆 形 ， 而 且 圆 形 的 水 果 
也 不 一 定 是 苹果 。 如 下 图 所 示 : 






by 


(Class): Apples are circular. ] 








上 图 中 蓝 色 区 域 的 图 片 代表 分 类 错误 。 显 然 ， 只 用 "苹果 是 圆 形 的 "这 一 个 条 件 不 能 保 
证 分 类 效果 很 好 。 我 们 把 蓝 色 区 域 (分 类 错误 的 图 片 ) 放大 ， 分 类 正确 的 图 片 缩小 ， 
这 样 在 接 下 来 的 分 类 中 就 会 更 加 注重 这 些 错误 样本 。 


然后 ， 学 生 Tina 观 察 被 放大 的 错误 样本 和 上 一 轮 被 缩小 的 正确 样本 ， 回 答 说 : 苹果 应 
该 是 红色 的 。 根 据 Tina 的 判断 ， 得 到 的 结果 如 下 图 所 示 : 





(Class): Apples are somewhat circular and 
somewhat red. | 


上 图 中 蓝 色 区 域 的 图 片 一 样 代表 分 类 错误 元 即 根据 这 个 苹果 是 红色 的 条 件 ， 使 得 青 苹 
果 和 和 草莓、 西红柿 都 出 现 了 判断 错误 。 那 么 结果 就 是 把 这 些 分 类 错误 的 样本 放大 化 ， 
其 它 正 确 的 样本 缩小 化 。 同 样 ， 这 样 在 接 下 来 的 分 类 中 就 会 更 加 注重 这 些 错 误 样 本 。 


接着 ， 学 生 Joey 经 过 观察 又 说 :苹果 也 可 能 是 绿色 的 。 根 据 Joey 的 判断 ， 得 到 的 结果 
如 下 图 所 示 : 






w 
(Class): Apples are somewhat circular and 
somewhat red and possibly green. | 





V 





上 图 中 蓝 色 区 域 的 图 片 一 样 代表 分 类 错误 ， 根 据 苹 果 是 绿色 的 条 件 ， 使 得 图 中 蓝 色 区 
域 都 出 现 了 判断 错误 。 同 样 把 这 些 分 类 错误 的 样本 放大 化 ， 其 它 正确 的 样本 缩小 化 ， 
在 下 一 轮 判 断 继续 对 其 修正 。 


后 来 ， 学 生 Jessica 又 发 现 : 上 面 有 梗 的 才 是 苹果 。 得 到 如 下 结果 : 


g à sh Li e 
i ə? v € » 
v EV = © ¢ 


经 过 这 几 个 同学 的 推论 ， 苹 果 被 定义 为 : 圆 的 ， 红 色 的 人 也 可 能 是 绿色 的 ， 上 面 有 

醒 。 从 一 个 一 个 的 推导 过 程 中 ， 我 们 似乎 得 到 一 个 较为 准确 的 苹果 的 定义 。 虽 然 可 能 
不 是 非常 准确 ， 但 是 要 比 单 一 的 条 件 要 好 得 多 。 也 就 是 说 把 所 有 学 生 对 苹果 的 定义 融 
合 起 来 ， 最 终 得 到 一 个 比较 好 的 对 苹果 的 总 体 定义 。 这 种 做 法 就 是 我 们 本 节 课 将 要 讨 
论 的 演算 法 。 这 些 学 生 代 表 的 就 是 简单 的 hypotheses 9: ， 将 所 有 9% 融合 ， 得 到 很 好 的 
预测 模型 G。 例 如 ， 二 维 平 面 上 简单 的 hypotheses (水 平 线 和 垂直 线 ) ， 这 些 简单 9 
最 终 组 成 的 较 复杂 的 分 类 线 能 够 较 好 地 将 正 负 样 本 完全 分 开 ， 即 得 到 了 好 的 预测 模 


型 。 


x 


所 以 ， 上 个 苹果 的 例子 中 ， 不 同 的 学 生 代表 不 同 的 hypotheses g ; BESET 
体 定义 就 代表 hypothesis G; Me lRRITAIR AISA, TES REALE IS PIAL pi 





例子 中 (错误 样本 ) ， 从 而 得 到 更 好 的 苹果 定义 。 其 中 的 数学 原理 ， 我 们 下 一 部 分 详 
细 介 绍 。 


e students: simple hypotheses g; (like vertical/horizontal lines) 
e (Class): sophisticated hypothesis G (like black curve) 


e Teacher: a tactic learning algorithm that directs the students to 
focus on key examples 


Diversity by Re-weighting 


在 介绍 这 个 演算 法 之 前 ， 我 们 先 来 讲 一 下 上 节 课 就 介绍 过 的 bagging。Bagging 的 核心 
是 bootstrapping， 通 过 对 原始 数据 集 D 不 断 进 行 bootstrap 的 抽样 动作 ， 得 到 与 D 类 似 
的 数据 集 DD:， 每 组 轧 都 能 得 到 相应 的 g; ， 从 而 进行 aggregation 的 操作 。 现 在 ， 假 如 
包含 四 个 样本 的 D 经 过 bootstrap， 得 到 新 的 刀 , 如 下 : 


D = {(%1, y1); (X2: Y2), (Xa. Ya). (Xa. Ya) } 


"e Dt = (Qa Yi Qa Yn). (Xe, yo); (Ka, Ya)) 


那么 ， 对 于 新 的 万, ， 把 它 交 给 base-algorithm ， 找 出 为 ,最 小 时 对 应 的 % ， 如 下 图 右 
边 所 示 。 


Ej (h 3 # h(z)] 
由 于 已, 完全 是 D 经 过 bootstrap 得 到 的 ， 其 中 样本 (zl , yi) 出 现 2 次 ，(x2, yo ) 出 现 1 


XX, (23, 3) 出 现 0 次 ，(z4; V4) 出现 1 次 。 引 入 一 个 参数 wi 来 表示 原 D 中 第 i 个 样本 在 
万 ,中 出 现 的 次 数 ， 如 下 图 左边 所 示 。 


= 二 》 .区 天 ja 


n=1 
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Ehi 5 ern 


(x.y)eD, 
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4 
Ein(h) = 7> Un : [yn + h(xn)] 
n=1 


(X1, y1), U1 = 2 (X1. 1). (X1, y1) 


(X2. y2), uo = 1 (Xo. y2) 
(Xa. y3), Us =0 
(X4. y4), Us = 1 (X4. y4) 





参数 u 相 当 于 是 权重 因子 ， 当 轧 , 中 第 个 样本 出 现 的 次 数 越 多 的 时 候 ， 那 么 对 应 的 ww; 越 
大 ， 表 示 在 error function 中 对 该 样本 的 惩罚 越 多 。 所 以 ， 从 另外 一 个 角度 来 看 
bagging， 它 其 实 就 是 通过 bootstrap 的 方式 ， 来 得 到 这 些 wi 值 ， 作 为 犯错 样本 的 权重 
因子 ， 再 用 base algorithn 最 小 化 包含 的 error function， 得 到 不 同 的 gf 。 这 个 error 
function 被 称 为 bootstrap-weighted error。 


这 种 算法 叫做 Weightd Base Algorithm ， 目 的 就 是 最 小 化 bootstrap-weighted error, 


minimize (regularized) 


N 
Eù (h) = x; Y Ùn erlyn, ho) 
n=1 


其 实 ， 这 种 weightd base algorithm 我 们 之 前 就 介绍 过 类 似 的 算法 形式 。 例 如 在 soft- 
margin SVM 中 ， 我 们 引入 允许 犯错 的 项 ， 同 样 可 以 将 每 个 点 的 error 乘 以 权重 因子 wwn 
。 加 上 该 项 前 的 参数 C， 经 过 QP， 最 终 得 到 0 <a, < Cuwn ， 有 别 于 之 前 介绍 的 

0 < o, < C。 这 里 的 wr, 相当 于 每 个 犯错 的 样本 的 惩罚 因子 ， 并 会 反映 到 Qa, 的 范围 
限定 上 。 


同样 在 logistic regression 中 ， 同 样 可 以 对 每 个 犯错 误 的 样本 乘 以 相应 的 ww ， 作 为 惩罚 
AF. Un 表示 该 错误 点 出 现 的 次 数 ，? 刀 越 大 ， 则 对 应 的 惩罚 因子 越 大 ， 则 在 最 小 化 
error 时 就 应 该 更 加 重视 这 些 点 。 





logistic regression 
E O% 3 UnerrcE by SGD 


e Wis (Xn, Yn) with 
probability proportional to Un 






N 
E x C UnelT sym by dual QP 


n=1 
< adjusted upper bound 
0 < an < Cun 





其 实 这 种 example-weighted learning， 我 们 在 机 器 学 习 基 石 课 程 第 8 次 笔记 中 就 介绍 过 
class-weighted 的 思想 。 二 者 道理 是 相通 的 。 


知道 了 u 的 概念 后 ， 我 们 知道 不 同 的 u 组 合 经 过 base algorithm 得 到 不 同 的 g:。 那 么 如 
何 选取 u， 使 得 到 的 % 之 间 有 很 大 的 不 同 呢 ? 之 所 以 要 让 所 有 的 gi 差别 很 大 ， 是 因为 上 
节 课 aggregation 中 ， 我 们 介绍 过 gi 越 不 一 样 ， 其 aggregation 的 效果 越 好 ， 即 每 个 人 
的 意见 越 不 相同 ， 越 能 运用 集体 的 智慧 ， 得 到 好 的 预测 模型 。 


为 了 得 到 不 同 的 gt: ， 我 们 先 来 看 看 9%: 和 9t+1 是 怎么 得 到 的 : 


9 — argmin (>: ut? Vn Z 2) 


Qui 全 d (Y unn [Yn A 2) 
H 


n=l 


if g, ‘not good’ for ul 全 人 gr-like hypotheses not returned as gi+1 
=> gt+1 diverse from gr 


WLEBUR, gS@thut SSN, g,. Shu’) San. tps gx iE uË 
的 时 候 得 到 的 error 很 大 ， 即 预测 效果 非常 不 好 ， 那 就 表示 由 wwtt+ Vtg 1259. 
有 很 大 不 同 。 而 gi 1 与 94 差 异性 大 正 是 我 们 希望 看 到 的 。 


怎么 做 呢 ? 方法 是 利用 gy 在 使 用 u(t 的 时 候 表 现 很 差 的 条 件 ， 越 差 越 好 。 如 果 在 g 
作用 下 ，wu 儿 1 中 的 表现 (Blerror) 近似 为 0.5 的 时 候 ， 表 明 gt 对 ut 1 的 预测 分 类 没 
有 什么 作用 ， 就 像 抛 硬币 一 样 ， 是 随机 选择 的 。 这 样 的 做 法 就 能 最 大 限度 地 保证 9i 4 


会 与 g; 有 较 大 的 差异 性 。 其 数学 表达 式 如 下 所 示 : 





idea: construct u(**) to make g; random-like 


Ena Un) [mnz#g(x 1 
Ed 2 


乍 看 上 面 这 个 式 子 ， 似 乎 不 好 求解 。 但 是 ， 我 们 对 它 做 一 些 等 价 处 理 ， 其 中 分 式 中 分 
pain abe ae 误 的 点 ， 而 4 分 母 可 以 看 成 所 错 的 点 和 没有 犯错 误 的 点 的 集 
， 即 所 有 样本 点 。 其 中 犯错 误 的 点 和 没有 犯错 误 的 点 分 别 用 橘 色 方 块 和 绿色 圆圈 表 


= 


(t+1) E 1 
wan: jp Un eB ae) = t+1 = 了 ain 
和 us Bac @it+1 
N 
NES 3 ut Vy # g(xn)], 913 = > Ul Yh = gn) 
n=1 4 


一 - 


要 让 分 式 等 于 0.5， 显 然 只 要 将 犯错 误 的 点 和 没有 犯错 误 的 点 的 数量 调 成 一 样 就 可 以 
了 。 也 就 是 说 ， 在 % 作 用 下 ， 让 犯错 的 wu 人) 数量 和 没有 犯错 的 vt 数量 一 致 就 行 
(EARE) 。 一 种 简单 的 方法 就 是 利用 放大 和 缩小 的 思想 (本 节 课 开始 引入 识 
别 苹果 的 例子 中 提 到 的 放大 图 片 和 缩小 图 片 就 是 这 个 目的 ) ， 将 犯错 误 的 wu 和 没有 犯 
错误 的 做 相应 的 乘积 操作 ， 使 得 二 者 值 变 成 相等 。 例 如 ws of incorrect/91126, ut, 


of correct 为 6211， 要 让 u(t+ 直 中 错误 比例 正好 是 0.5， 可 以 这 样 做， 对 于 incorrect 
(t+1). 
us 


ult) © u® . 6211 
对 于 correct ut +1), 
ul) © al . 1126 


或 者 利用 犯错 的 比例 来 做 ， 令 weighted incorrect rate 和 weighted correct rate 分 别 设 为 
1126 59 S211 。 一 般 求解 方式 是 令 犯 错 率 为 e:， 在 计算 uy 的 时 候 ， 忆 分 别 乘 以 
(1 了 et ) 和 et。 





。need: (total ul +” of incorrect) = (total uS'*” of correct) 
— —— N 


E; e... 
* one possibility by re-scaling (multiplying) weights, if 
(total ul! of incorrect) = 1126 ; | (total ut of correct) = 6211 ; 
(weighted incorrect rate) = +488 | (weighted correct rate) = $211 





incorrect: u&*) «uM .6211 | correct: ut’ + ut . 1126 


‘optimal’ re-weighting under weighted incorrect rate «z: 
multiply incorrect œ (1 — et); multiply correct œ et 


Adaptive Boosting Algorithm 


ESBS), BAMA etl) nome, ul, RISEA(1— &) 和 et。 下 面 将 构造 
一 个 新 的 尺度 因子 : 
1 一 €t 


ot 一 
€t 


那么 引入 这 个 新 的 尺度 因子 之 后 ， 对 于 错误 的 uh ， 将 它 乘 以 0t; 对 于 正确 的 uh， 将 
它 除 以 0t。 这 种 操作 跟 之 前 介绍 的 分 别 乘 以 (1 一 e; ) 和 6 的 效果 是 一 样 的 。 之 所 以 引 
入 ct 是 因为 它 告 诉 我 们 更 多 的 物理 意义 。 因为 如 果 et X 地， 得 到 ot > 1， 那 么 接 下 
来 错误 的 与 0t 的 乘积 就 相当 于 把 错误 点 放大 了 ， 而 正确 的 己 与 9t 的 相 除 就 相当 于 
把 正确 点 缩小 了 。 这 种 scale up incorrectf[]scale down correct 的 做 法 与 本 节 课 开始 介 
绍 的 学 生 识 别 苹果 的 例子 中 放大 错误 的 图 片 和 缩小 正确 的 图 片 是 一 个 原理 ， 让 学 生 能 
够 将 注意 力 更 多 地 放 在 犯错 误 的 点 上 。 通 过 这 种 scaling-up incorrect 的 操作 ， 能 够 保 
证 得 到 不 同 于 gi 的 gr41。 


define scaling factor $1 = \/ +“ 
incorrect «— incorrect - 4, 


correct ++ correct / 4; 


e equivalent to optimal re-weighting 

e @>1iffe;< 3 
一 physical meaning: scale up incorrect; scale down correct 
—like what Teacher does 





推论 即 可 。 关 于 ex > 的 情况 ， 我 们 稍 后 会 进行 说 明 。 
从 这 个 概念 出 发 ， 我 们 可 以 得 到 一 个 初步 的 演算 法 。 其 核心 步骤 是 每 次 迭代 时 ， 利 用 
ot = 4/ 二 把 ws 更 新 为 ws;1。 上 有 具体 迭代 步骤 如 下 : 


€t 


值得 注意 的 是 上 述 的 结论 是 建立 在 et < 二 的 基础 上 ， 如 果 et > 于， 那么 就 做 相反 的 





ul!) =? 
otsi 2 .r 
Q obtain g; by A(D, ul?), 
where A tries to minimize u(0-weighted 0/1 error 


@ update u(? to u+) by ẹ; = \/ 1, 


where c; = weighted error (incorrect) rate of g; 
return G(x) =? 


但 是 ， 上 述 步骤 还 有 两 个 问题 没有 解决 ， 第 一 个 问题 是 初始 的 vt) 应 为 多 少 呢 ? 一 般 
来 说 ,为 了 保证 第 一 次 Bin 最 小 的 话 ， 设 u(1 = 让 即 可 。 这 样 最 开始 的 91 就 能 由 此 
推导 。 第 二 个 问题 ， 最 终 的 G(x) 应 该 怎么 求 ? 是 将 所 有 的 g(t) 合 并 uniform 在 一 起 吗 ? 
一 般 来 说 并 不 是 这 样 直 接 uniform 求 解 ， 因 为 9 41 是 通过 gi 得 来 的 ， 二 者 在 Bin, 上 的 表 
现 差别 比较 大 。 所 以 ， 一般 是 对 所 有 的 g(t) 进 行 linear 或 者 non-linear 组 合 来 得 到 G(t)。 


* want gi ‘best’ for Ein: uU) 一 " 

* G(X): 
* uniform? but g very bad for Ein (why? :-)) 
* linear, non-linear? as you wish 


接 下 来 的 内 容 ， 我 们 将 对 上 面 的 第 二 个 问题 进行 探讨 ， 研 究 一 种 算法 ， 将 所 有 的 g(t) 进 
行 linear 组 合 。 方 法 是 计算 g(t) 的 同时 ， 就 能 计算 得 到 其 线性 组 合 系数 aq: ， 即 
aggregate linearly on the fly。 这 种 算法 使 最 终 求 得 gi 1 的 时 候 ， 所 有 gi 的 线性 组 合 系 
数 Qa 也 求 得 了 ， 不 用 再 重新 计算 qa 了。 这 种 Linear Aggregation on the Fly 算 法 流程 
为 : 





u = [b,b WI 
w= 22,8 


© obtain g; by A(D, u/?), where ... 


© update u(? to u+!) by $1 = Js, where ... 
© compute a; = In(4;) 
return G(x) = sign pre azgt(x) ) 
如 何在 每 次 迭代 的 时 候 计算 Qs 呢 ? 我 们 知道 qx 与 6 是 相关 的 : & 越 小 ， 对 应 的 oy 应 该 
越 大 ，@ 越 大 ， 对 应 的 Qt 应 该 越 小 。 又 因为 0t 与 et 是 正 相 关 的 ， 所 以 ，awt 应 该 是 ot 的 
单调 函数 。 我 们 构造 ar 为 : 


a, = In(ot) 


Qt 这 样 取 值 是 有 物理 意义 的 ， 例 如 当 e = im, error(R A, ERAS FIORI UST 
程 没什么 两 样 ， 此 时 对 应 的 0t = 1, e; = 0， 即 此 gz 对 G6 没有 什么 贡献 ， 权 重 应 该 设 
AS. M4e = 0 时 ,没有 error， 表 示 该 gi 预测 非常 准 ， 此 时 对 应 的 ot = oo, 

o, = co， 即 此 % 对 G 贡 献 非常 大 ， 权 重 应 该 设 为 无 穷 大 。 


* wish: large a; for ‘good’ gt & a; = monotonic(¢;) 
e will take Qt = In(#;) 
© e = } — $; =1= a; = 0 (bad g, zero weight) 
* et = 0 — & — 06 —5 ar = o (super g: superior weight) 


这 种 算法 被 称 为 Adaptive Boosting。 它 由 三 部 分 构成 : base learning algorithm A, 
re-weighting factor ct 和 linear aggregation ar 。 这 三 部 分 分 别 对 应 于 我 们 在 本 节 课 开 
台 介 绍 的 例子 中 的 Student，Teacher 和 Class。 


Adaptive Boosting = weak base learning algorithm A (Student) 
+ optimal re-weighting factor $; (Teacher) 
+ ‘magic’ linear aggregation a; (Class) 


综 上 所 述 ， 完 整 的 adaptive boosting (AdaBoost) Algorithm 流 程 如 下 : 





ul) = [5.4 vl 
oe a or See A 


© obtain g; by A(D, u(?), 
where A tries to minimize u")-weighted 0/1 error 
© update ul’) to ul") by 
[yn Æ gi(X5)] (incorrect examples): un — u 
[Yn = gi(X5)] (correct examples): un 


N t) 
where @; = \/ Es and e; = Ez e beau] 
b 3 n-1 Un 


© compute a; = In(4:) 
return G(x) = sign [ azgt(x) ) 


从 我 们 之 前 介绍 过 的 VC bound 角 度 来 看 ，AdaBoost 算 法 理论 上 满足 : 


e From VC bound 


Eou(G) < Ein(G) +O O(dvc(H) f T log T) . = 


dvc of all possible G 


* first term can be small: 

Ei (G) = 0 after T = O(log N) iterations if « < « < 3 always 
* second term can be small: 

overall dvc grows "slowly" with T 


txt, Fou (G) 的 上 界 由 两 部 分 组 成 ， 一 项 是 i (G)， 另 一 项 是 模型 复杂 度 
O(*)。 模 型 复杂 度 中 dw ( 互 ) 是 % 的 VC Dimension，T 是 迭代 次 数 ， 可 以 证 明 G 的 qu 
ARM O(dy.(H) - Tlog T). 

对 这 个 VC bound 中 的 第 一 项 Bi (G) 来 说 ， 有 一 个 很 好 的 性 质 : 如 果 满 足 

e 之 € < +, WAIT = O(log 入 ) 次 迭代 之 后 ，Ein (G) 能 减 小 到 等 于 零 的 程度 。 
而 当 N 很 大 的 时 候 ， 其 中 第 二 项 也 能 变 得 很 小 。 因 为 这 两 项 都 能 变 得 很 小 ， 那 么 整个 
为 必 (G) 就 能 被 限定 在 一 个 有 限 的 上 界 中 。 


其 实 ， 这 种 性 质 也 正 是 AdaBoost 算 法 的 精 咽 所 在 。 只 要 每 次 的 ef X < +, BUB 


一 些 ， 逐 渐变 强 ， 最 终 得 到 Eiy, = OB Eou ih. 





boosting view of AdaBoost: 
if A is weak but always slightly better than random («; < e < 3), 
then (AdaBoost+.A) can be strong (En = 0 and Eou small) 


Adaptive Boosting in Action 


上 一 小 节 我 们 已 经 介绍 了 选择 一 个 “ 弱 弱 "的 算法 A (e X ec 3， 比 乱 猜 好 就 行 )， 
就 能 经 过 多 次 迭代 得 到 天 ;三 0。 我 们 称 这 种 形式 为 decision stump 模 型 。 下 面 介 绍 
一 个 例子 ， 来 看 看 AdaBoost 是 如 何 使 用 decision stump 解 决 实际 问题 的 。 


如 下 图 所 示 ， 二 维 平面 上 分 布 一 些 正 负 样 本 点 ， 利 用 decision stump 来 做 切割 。 


initially 

















可 以 看 到 ， 经 过 5 次 迭代 之 后 ， 所 有 的 正 负 点 已 经 被 完全 分 开 了 ， 则 最 终 得 到 的 分 类 线 
为 : 





另外 一 个 例子 ， 对 于 一 个 相对 比较 复杂 的 数据 集 ， 如 下 图 所 示 。 它 的 分 界线 从 视觉 上 
看 应 该 是 一 个 sin 波 的 形式 。 如 果 我 们 再 使 用 AdqaBoost 算 法 ， 通 过 decision stump 来 做 
切割 。 在 迭代 切割 100 次 后 ， 得 到 的 分 界线 如 下 所 示 。 





t = 100 





可 以 看 出 ，AdaBoost-Stump 这 种 非 线 性 模型 得 到 的 分 界线 对 正 负 样本 有 较 好 的 分 离 效 
FR 


课程 中 还 介绍 了 一 个 AdaBoost-Stump 在 人 脸 识别 方面 的 应 用 : 





original picture by F.U.S LA assistant and derivative work by Sylenius via Wikimedia Commons 


The World's First 'Real-Time' Face Detection Program 





* AdaBoost-Stump as core model: linear aggregation of key 
patches selected out of 162,336 possibilities in 24x24 images 
一 feature selection achieved through AdaBoost-Stump 


sa modified linear aggregation G to rule out non-face earlier 
—efficiency achieved through modified linear aggregation 


总 结 


本 节 课 主要 介绍 了 Adaptive Boosting。 首 先 通过 讲 一 个 老师 教 小 学 生 识别 苹果 的 例 

子 ， 来 引入 Boosting 的 思想 ， 即 把 许多 " 弱 弱 "的 hypotheses 合 并 起 来 ， 变 成 很 强 的 预 

测 模型 。 然 后 重点 介绍 这 种 算法 如 何 实现 ， 关 键 在 于 每 次 迭代 时 ， 给 予 样本 不 同 的 系 

数 u， 宗 旨 是 放大 错误 样本 ， 缩 小 正确 样本 ， 得 到 不 同 的 小 矩 g。 并 且 在 每 次 迭代 时 析 ees 
rad E 





据 错 误 e 值 的 大 小 ， 给 予 不 同 % 不 同 的 权重 。 最 终 由 不 同 的 % 进 行 组 合 得 到 整体 的 预测 
模型 G6。 实 际 证 明 ，Adaptive Boosting 能 够 得 到 有 效 的 预测 模型 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技法 》 课 程 





林 轩 田 《 机 器 学 习 技 法 》 课 程 笔记 9 -- Decision Tree 


VES: 红色 石头 公众 号 : Al 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Adaptive Boosting。AdaBoost 演 算法 通过 调整 每 笔 资料 的 权 
重 ,， 得 到 不 同 的 hypotheses， 然 后 将 不 同 的 hypothesis 乘 以 不 同 的 系数 a 进行 线性 组 
合 。 这 种 演算 法 的 优点 是 ， 即 使 底层 的 演算 法 g 不 是 特别 好 (只 要 比 乱 选 好 点 ) ， 经 过 
多 次 迭代 后 算法 模型 会 越 来 越 好 ， 起 到 了 boost 提 升 的 效果 。 本 节 课 将 在 此 基础 上 介绍 
一 种 新 的 aggregation 算 法 : 决策 树 (Decision Tree) 。 


Decision Tree Hypothesis 


从 第 7 节 课 开始 ， 我 们 就 一 直 在 介绍 aggregation modelsaggregation 的 核心 就 是 将 许 
多 可 供 选 择 使 用 的 比较 好 的 hypothesis 融 合 起 来 ， 利 用 集体 的 智慧 组 合成 G， 使 其 得 到 
更 好 的 机 器 学 习 预 测 模型 。 下 面 ， 我 们 先 来 看 看 已 经 介绍 过 的 aggregation type 有 哪 


些 。 





aggregation type blending learning 
uniform | voting/averaging | Bagging 
non-uniform || linear ^ | AdaBoost 
conditional stacking Decision Tree 


aggregation type 有 三 种 : uniform，non-uniform，conditional。 它 有 两 种 情况 ， 一 种 
是 所 有 的 g 是 已 知 的 ， 即 blending。 对 应 的 三 种 类 型 分 别 是 voting/averaging，linear 和 
stacking。 另 外 一 种 情况 是 所 有 g 未 知 ， 只 能 通过 手 上 的 资料 重 构 g， 即 learning。 其 中 
uniform 和 non-uniform 分 别 对 应 的 是 Bagging 和 AdaBoost 算 法 ， 而 conditional 对 应 的 就 
是 我 们 本 节 课 将 要 介绍 的 Decision Tree 算法 。 


决策 树 (Decision Tree) 模型 是 一 种 传统 的 算法 ， 它 的 处 理 方式 与 人 类 思维 十 分 相 
似 。 例 如 下 面 这 个 例子 ， 对 下 班 时 间 、 约 会 情况 、 提 交 截 止 时 间 这 些 条 件 进行 判断 ， 
从 而 决定 是 否 要 进行 在 线 课 程 测试 。 如 下 图 所 示 ， 整 个 流程 类 似 一 个 树 状 结构 。 








图 中 每 个 条 件 和 选择 都 决定 了 最 终 的 结果 ，Y or N。 蓝 色 的 圆圈 表示 树 的 叶子 ， 即 最 
终 的 决定 。 


把 这 种 树 状 结构 对 应 到 一 个 hypothesis G(x) 中 ，G(x) 的 表达 式 .为 : 


T 
G(x) = > a(x): gl£) 
t=1 
G(x) 由 许多 gi (z) 组 成 ， 即 aggregation 的 做 法 。 每 个 9: (zZ) 就 代表 上 图 中 的 蓝 色 圆圈 
( 树 的 叶子 ) 。 这 里 的 gi (z) 是 常数 ， 因 为 是 处 理 简 单 的 classification 问 题 。 我 们 把 这 
些 gi (Z) 称 为 base hypothesis, qi (72) 表 示 每 个 gi (x) RAZA, CREEP RAI 
头 的 部 分 。 不 同 的 gi (z) 对 应 于 不 同 的 和 0Zz) ， 即 从 树 的 根部 到 顶端 叶子 的 路 径 不 同 。 


了 整个 G(X) 的 形式 ， 就 像 一 棵 树 一 样 ， 从 根部 到 顶端 所 有 的 叶子 都 安全 映射 到 上 述 公 
AEST. 


- 
G(x) = $ a(x) - g:(x) 
=) 
e base hypothesis g;(x): 
leaf at end of path t, 
a constant here 
e condition q;(x): 
[is x on path t?] 
e usually with simple 


internal nodes 1 





分 类 预测 效果 都 很 不 错 ， 而 它 在 数学 上 的 理论 完备 性 不 充分 ， 倒 也 不 必 人 在意 。 


如 果 从 另外 一 个 方面 来 看 决策 树 的 形式 ， 不 同 于 上 述 G(x) 的 公式 ， 我 们 可 以 利用 条 件 
分 支 的 思想 ， 将 整体 G(X) 分 成 若干 个 Ge(Zz)， 也 就 是 把 整个 大 树 分 成 若干 个 小 树 ， 如 
下 所 示 : 


C 
G(x) = X f(x) = e] - G« (a) 
c—1 
上 式 中 ，G(x) 表 示 完 整 的 大 树 ， 即 full-tree hypothesis，b(x) 表 示 每 个 分 支 条 件 ， 即 
branching criteria, G (zx) 表 示 第 c 个 分 支 下 的 子 树 ， 即 sub-tree。 这 种 结构 被 称 为 递 
归 型 的 数据 结构 ， 即 将 大 树 分 割 成 不 同 的 小 树 ， 再 将 小 树 继 续 分 割 成 更 小 的 子 树 。 所 
以 ， 决 策 树 可 以 分 为 两 部 分 : root 和 sub-trees。 


Recursive View 





C 
G(x) = 5 [b(x) = c] : Go(x) 


c=1 
e G(x): full-tree hypothesis 
e b(X): branching criteria 
e Gc(X): sub-tree hypothesis at 


the c-th branch 
在 详细 推导 决策 树 算法 之 前 ， 我 们 先 来 看 一 看 它 的 优点 和 缺点 。 首 先 ，decision tree 


的 优点 有 : 


。 模型 直观 ， 便 于 理解 ， 应 用 广泛 
。 算法 简单 ， 容 易 实 现 
。 训练 和 预测 时 ， 效 率 较 高 


。 缺少 足够 的 理论 支持 
。 如 何 选择 合适 的 树 结构 对 初学 者 来 说 比较 困惑 
。 决策 树 代 表 性 的 演算 法 比较 少 








e human-explainable: widely e heuristic: 
used in business/medical mostly little theoretical 
data analysis explanations 

e simple: e heuristics: 


‘heuristics selection’ 
confusing to beginners 

e arguably no single 
representative algorithm 


even freshmen can 
implement one :-) 


e efficient in prediction and 
training 


Decision Tree Algorithm 


我 们 可 以 用 递归 形式 将 decision tree 表 示 出 来 ， 它 的 基本 的 算法 可 以 写成 : 


G(x) = > [b(x) = c] G 维 


这 个 Basic Decision Tree Algorithm 的 流程 可 以 分 成 四 个 部 分 ， 首 先 学 习 设 定 划分 不 同 
分 支 的 标准 和 条 件 是 什么 ; 接着 将 整体 数据 集 D 根 据 分 支 个 数 C 和 条 件 ， 划 为 不 同 分 支 
下 的 子 集 Dc; 然后 对 每 个 分 支 下 的 Dc 进行 训练 ， 得 到 相应 的 机 器 学 习 模型 Gc;， 最 后 
将 所 有 分 支 下 的 Gc 合并 到 一 起 ， 组 成 大 和 矩 G(x)。 但 值得 注意 的 是 ， 这 种 递归 的 形式 需 
要 终止 条 件 ， 人 否则 程序 将 一 直 进 行 下 去 。 当 满足 递归 的 终止 条 件 之 后 ， 将 会 返回 基本 
的 hypothesis gi (x). 


function DecisionTree(data D = {(Xn, Yn) }*_,) 
if termination criteria met 
return base hypothesis g;(x) 


else m6 
© learn branching criteria b(x) 


© split D to C parts D. = {(Xn, Yn): b(x;) = c) 
€ build sub-tree Gs + DecisionTree(7.) 


© return G(x) = > [b(x) = c] Gc(x) 
C 一 1 


所 以 ， 决 策 树 的 基本 演算 法 包含 了 四 个 选择 : 


。 分 支 个 数 (number of branches) 





。 分 支 条 件 (branching criteria) 
。 终止 条 件 (termination criteria) 


。 基本 算法 (base hypothesis) 


下 面 我 们 来 介绍 一 种 常用 的 决策 树 模型 算法 ， 叫 做 Classification and Regression 
Tree(C&RT)。C&RT 算 法 有 两 个 简单 的 设 定 ， 首 先 ， 分 支 的 个 数 C=2， 即 二 叉 树 
(binary tree) 的 数据 结构 ， 然 后， 每 个 分 支 最 后 的 g: (x) ( 数 的 叶子 ) 是 一 个 常数 。 
按照 最 小 化 ijj, 的 目标 ， 对 于 binary/multiclass classification(0/1 error) 问 题 ， 看 正 类 
和 负 类 哪个 更 多 ，gi (x) 取 所 占 比例 最 多 的 那 一 类 y, ; 对 于 regression(squared error) 
问题 ，g (2) 则 取 所 有 yn 的 平均 值 。 


two simple choices 


e C — 2 (binary tree) 

* g(x) = En-optimal constant 
* binary/multiclass classification (0/1 error): majority of { yn} 
* regression (squared error): average of {y,} 


对 于 决策 树 的 基本 演算 法 流程 ，C&RT 还 有 一 些 简单 的 设 定 。 首 先 ，C&RT 分 支 个 数 
C=2， 一 般 采 用 上 节 课 介绍 过 的 decision stump 的 方法 进行 数据 切割 。 也 就 是 每 次 在 一 
个 维度 上 ， 只 对 一 个 特征 feature 将 数据 一 分 为 二 ， 左 子 树 和 右 子 树 ， 分 别 代 表 不 同 的 
类 别 。 然 而 ， 怎 么 切割 才能 让 数据 划分 得 最 好 呢 (error 最 小 ) ? C&RT 中 使 用 纯净 度 
purifying 这 个 概念 来 选择 最 好 的 decision stump。purifying 的 核心 思想 就 是 每 次 切割 都 
尽 可 能 让 左 子 树 和 右 子 树 中 同类 样本 占 得 比例 最 大 或 者 y, 都 很 接近 (regression) , 
即 错误 率 最 小 。 比 如 说 classifiacation 问 题 中 ， 如 果 左 子 树 全 是 正 样本 ， 右 子 树 全 是 负 
样本 ， 那 么 它 的 纯净 度 就 很 大 ， 说 明 该 分 支 效果 很 好 。 


more simple choices 


e simple internal node for C = 2: {1,2}-output decision stump 
e ‘easier’ sub-tree: branch by purifying 


2 
b(x) = argmin >》 [Dc with h| - impurity(Dc with h) 
decision stumps h(x) c-1 
根据 C&RT 中 purifying 的 思想 ， 我 们 得 到 选择 合适 的 分 支 条 件 b(x) 的 表达 式 如 上 所 示 。 


最 好 的 decision stump 重 点 包含 两 个 方面 : 一 个 是 刚刚 介绍 的 分 支 纯净 度 purifying,， 





purifying 越 大 越 好 ， 而 这 里 使 用 purifying 相 反 的 概念 impurity， 则 impurity 越 小 越 好 ; 另 
外 一 个 是 左右 分 支 纯净 度 所 占 的 权重 ， 权 重大 小 由 该 分 支 的 数据 量 决定 ， 分 支 包 含 的 
样本 个 数 越 多 ， 则 所 占 权 重 越 大 ， 分 支 包 含 的 样本 个 数 越 少 ， 则 所 占 权 重 越 小 。 上 了 式 
中 的 |D。 with hh| 代 表 了 分 支 c 所 占 的 权重 。 这 里 b(x) 类 似 于 error function (这 也 是 为 
什么 使 用 impurity 代 蔡 purifying 的 原因 ) ， 选 择 最 好 的 decision stump， 让 所 有 分 支 的 
不 纯度 最 小 化 ， 使 b(x) 越 小 越 好 。 
不 纯度 Impurity 如 何 用 函数 的 形式 量化 ? 一 种 简单 的 方法 就 是 类 比 于 Bj, ， 看 预测 值 与 
真实 值 的 误差 是 多 少 。 对 于 regression 问 题 ， 它 的 impurity 可 表示 为 : 
Lx s 
impurity(D) — N 2 (on — y) 


n=1 


其 中 ，Yy 表 示 对 应 分 支 下 所 有 wy 的 均值 。 


对 应 classification 问 题 ， 它 的 impurity 可 表示 为 : 


1 N 
impurity(D) = = Mw zv] 


n=1 


HA, y RAIMA se RAT LOPE ABIES. 


by En of optimal 


* regression error: 
1 N 
impurity(D) — N 0n - y» 
n=1 


with y = average of {yn} 
e classification error: 


N 
impurity(D) = $ > Drs s y'] 
n=1 


with y* = majority of {yn} 


以 上 这 些 impurity 是 基于 原来 的 regression error 和 classification error 直 接 推导 的 。 进 
一 步 来 看 classification 的 impurity functions， 如 果 某 分 支 条 件 下 ， 让 其 中 一 个 分 支 纯度 
最 大 ， 那 么 就 选择 对 应 的 decision stump， 即 得 到 的 classification error: 





1 — mazı<k<K 
其 中 ，K 为 分 支 个 数 。 
上 面 这 个 式 子 只 考虑 纯度 最 大 的 那个 分 支 ， 更 好 的 做 法 是 将 所 有 分 支 的 纯度 都 考虑 并 
计算 在 内 ， 用 基尼 指数 (Gini index) 表示 : 


E Dn-ilyn = k] 
das pede. oe 
24 ERE. 


Gini index 的 优点 是 将 所 有 的 class 在 数据 集中 的 分 布 状况 和 所 占 比 例 全 都 考虑 了 ， 这 
样 让 decision stump 的 选择 更 加 准确 。 


for classification 


e Gini index: 
K N 2 
p» [yn = k] 
I= Eo LAR LA 
2 


—all k considered together 
e classification error: 


N 
1— max yu [yo = k] 
1<k<K N 


—optimal k = y* only 


对 于 决策 树 C&RT 算 法 ， 通 常 来 说 ， 上 面 介 绍 的 各 种 impurity functionsrR, Gini index 
更 适合 求解 classification 问 题 ， 而 regression error 更 适合 求解 regression 问 题 。 


C&RT 算 法 迭代 终止 条 件 有 两 种 情况 ， 第 一 种 情况 是 当前 各 个 分 支 下 包含 的 所 有 样本 

yn 都 是 同类 的 ， 即 不 纯度 impurity 为 0， 表 示 该 分 支 已 经 达到 了 最 佳 分 类 程度 。 第 二 种 
情况 是 该 特征 下 所 有 的 xz, 相同， 无 法 对 其 进行 区 分 ， 表 示 没 有 decision stumps. BE 
这 两 种 情况 ，C&RT 算 法 就 会 停止 迭代 。 


forced to terminate when 


e all yn the same: impurity = 0 => g;(X) = Yn 
e all x, the same: no decision stumps 





所 以 ，C&RT 算 法 遇 到 迭代 终止 条 件 后 就 成 为 完全 长 成 树 (fully-grown tree) 。 它 每 次 
分 支 为 二 ， 是 二 叉 树 结构 ， 采 用 purify 来 选择 最 佳 的 decision stump 来 划分 ， 最 终 得 到 
的 叶子 (gi (x)) 是 常数 。 


Decision Tree Heuristics in C&RT 


现在 我 们 已 经 知道 了 C&RT 算 法 的 基本 流程 : 


function DecisionTree(data D = {(Xn, yn)}*_,) 
if cannot branch anymore 
return g;(X) = Ej,-optimal constant 


else Me 
© learn branching criteria 


2 
b(x)= argmin Y [De with h|-impurity(Dc with h) 
decision stumps h(x)  &—4 
© split D to 2 parts De = {(Xp, yn): b(X5) = c] 
© build sub-tree Gc + DecisionTree(D.) 


© return G(x) = > [b(x) = c] G(x) 


c=1 


可 以 看 到 C&RT 算 法 在 处 理 binary classification 和 regression 问 题 时 非常 简单 实用 ， 而 
且 ， 处 理 muti-class classification 问 题 也 十 分 容易 。 


考虑 这 样 一 个 问题 ， 有 N 个 样本 ， 如 果 我 们 每 次 只 取 一 个 样本 点 作为 分 支 ， 那 么 在 经 
过 N-1 次 分 支 之 后 ， 所 有 的 样本 点 都 能 完全 分 类 正确 。 最 终 每 片 叶子 上 只 有 一 个 样 
本 ， 有 N 片 叶子 ， 即 必然 能 保证 为 ”= 0。 这 样 看 似 是 完 美的 分 割 ， 但 是 不 可 避免 地 
造成 VC Dimension 无 限 大 ， 造 成 模型 复杂 度 增加 ， 从 而 出 现 过 拟 合 现象 。 为 了 避免 
overfit， 我 们 需要 在 C&RT 算 法 中 引入 正则 化 ， 来 控制 整个 模型 的 复杂 度 。 


考虑 到 避免 模型 过 于 复杂 的 方法 是 减少 叶子 (gi(m)) 的 数量 ， 那 么 可 以 令 regularizer 
就 为 决策 树 中 叶子 的 总 数 ， 记 为 Qf(G)。 正 则 化 的 目的 是 尽 可 能 减少 Q(G ) 的 值 。 这 
样 ，regularized decision tree 的 形式 就 可 以 表示 成 : 


argmin at possible G) Fin (G) zs AQ(G) 


思 ， 通 过 regularization 来 修 郸 决策 树 ， 去 掉 多 余 的 叶子 ， 更 简洁 化 ， 从 而 达到 避免 过 Elis 





拟 合 的 效果 。 


那么 如 何 确定 修剪 多 少 叶 子 ， 修 前 哪些 叶子 呢 ? 假设 由 C&RT 算 法 得 到 一 棵 完全 长 成 
if (fully-grown tree) ， 总 共 10 片 叶子 。 首 先 分 别 减 去 其 中 一 片 叶子 ， 剩 下 9 片 ， 将 这 
10 种 情况 比较 ， 取 马 im 最 小 的 那个 模型 ;然后 再 从 9 片 叶子 的 模型 中 分 别 减 去 一 片 ， 剩 
下 8 片 ， 将 这 9 种 情况 比较 ， 取 Bin 最 小 的 那个 模型 。 以 此 类 推 ， 继 续 修 建 叶 子 。 这 
样 ， 最 终 得 到 包含 不 同 叶 子 的 几 种 模型 ， 将 这 几 个 使 用 regularized decision tree 的 
error function 来 进行 选择 ， 确 定 包 含 几 片 叶 子 的 模型 误差 最 小 ， 就 选择 该 模型 。 另 
外 ， 参 数 和 可 以 通过 validation 来 确定 最 佳 值 。 


* need a regularizer, say, O(G) = NumberOfLeaves(G) 
e want regularized decision tree: 
argmin Ejn(G) + AQ(G) 
all possible G 


—called pruned decision tree 


* cannot enumerate all possible G computationally: 
—often consider only 
e G9 = fully-grown tree 
* GÙ = argming Ein(G) such that G is one-leaf removed from G-? 


我 们 一 直 讨 论 决策 树 上 的 叶子 , (features) 都 是 numerical features， 而 实际 应 用 中 ， 

决策 树 的 特征 值 可 能 不 是 数字 量 2 而 是 类 别 (categorical features) 。 对 于 numerical 
features， 我 们 直接 使 用 decision stump 进 行 数值 切割 ;而 对 于 categorical features, 

我 们 仍然 可 以 使 用 decision subset， 对 不 同类 别 进行 “ 左 " 和 " 右 *"， 即 是 与 不 是 (0 和 1) 
的 划分 。numerical features 和 categorical features 的 具体 区 别 如 下 图 所 示 : 


categorical features 


major symptom: 
fever, pain, tired, sweaty 


branching for categorical 


decision subset 






numerical features 


blood pressure: 
130, 98, 115, 147, 120 









branching for numerical 


decision stump 
b(x) = [x € 6] +1 b(x) = [x e S] +1 


with 0 € R with 5 C {1,2,...,K} an 
"m T: 





在 决策 树 中 预测 中 ， 还 会 遇 到 一 种 问题 ， 就 是 当 某 些 特征 缺失 的 时 候 ， 没 有 办 法 进行 
切割 和 分 支 选 择 。 一 种 常用 的 方法 就 是 surrogate branch， 即 寻找 与 该 特征 相似 的 替代 
feature。 如 何 确定 是 相似 的 feature 呢 ?做 法 是 在 决策 树 训练 的 时 候 ， 找 出 与 该 特征 相 
似 的 feature， 如 果 蔡 代 的 feature 与 原 feature 切 割 的 方式 和 结果 是 类 似 的 ， 那 么 就 表明 
二 者 是 相似 的 ， 就 把 该 蔡 代 的 feature 也 存储 下 来 。 当 预测 时 遇 到 原 feature 缺 失 的 情 
况 ， 就 用 替代 feature 进 行 分 支 判 断 和 选择 。 


if weight missing during prediction: 
e what would human do? 
e go get weight 
* or, use threshold on height instead, because 
threshold on height ~ threshold on weight 
e surrogate branch: 


e maintain surrogate branch b;(x), b»(X), ... best branch b(x) 
during training 

e allow missing feature for b(x) during prediction by using surrogate 
instead 


— — | 


Decision Tree in Action 


最 后 我 们 来 举 个 例子 看 看 C&RT 算 法 究竟 是 如 何 进 行 计算 的 。 例 如 下 图 二 维 平面 上 分 
布 着 许多 正 负 样本 ,我 们 使 用 C&RT 算 法 来 对 其 进行 决策 树 的 分 类 。 





第 四 


PS» 





在 进行 第 四 步 切 割 之 后 ， 我 们 发 现 每 个 分 支 都 已 经 非常 纯 争 了 ， 没 有 办 法 继续 往 下 切 
剂 。 此 时 表明 已 经 满足 了 和 迭代 终止 条 件 ， 这 时 候 就 可 以 回 传 base hypothesis， 构 成 
sub tree， 然 后 每 个 sub tree 再 往 上 整合 形成 tree， 最 后 形成 我 们 需要 的 完全 决策 树 。 
如 果 将 边界 添加 上 去 ， 可 得 到 下 图 : 


得 到 C&RT 算 法 的 切割 方式 之 后 ， 我 们 与 AdaBoost-Stump 算 法 进行 比较 : 





C&RT AdaBoost-Stump 


我 们 之 前 就 介绍 过 ，AdaBoost-Stump 算 法 的 切割 线 是 横 跨 整个 平面 的 ; 而 C&RT 算 法 
的 切割 线 是 基于 某 个 条 件 的 ， 所 以 一 般 不 会 横 跨 整个 平面 。 比 较 起 来 ， 虽 然 C&RT 和 
AdaBoost-Stump 都 采用 decision stump 方 式 进 行 切割 ， 但 是 二 者 在 细节 上 还 是 有 所 区 
别 。 


再 看 一 个 数据 集 分 布 比较 复杂 的 例子 ，C&RT 和 AdaBoost-Stump 的 切割 方式 对 比 效果 
如 下 图 所 示 : 





AdaBoost-Stump 


通常 来 说 ， 由 于 C&RT 是 基于 条 件 进行 切割 的 ， 所 以 C&RTHAdaBoost-Stump 分 类 切 
割 更 有 效率 。 总 结 一 下 ，C&RT 决 策 树 有 以 下 特点 : 





e human-explainable 

e multiclass easily 

e categorical features easily 

e missing features easily 

e efficient non-linear training (and testing) 


—almost no other learning model share all such specialties, 
except for other decision trees 


总 结 : 


本 节 课 主要 介绍 了 Decision Tree。 首 先 将 decision tree hypothesis 对 应 到 不 同 分 支 下 
的 矩 9 (xX)。 然 后 再 介绍 决策 树 算法 是 如 何 通 过 递归 的 形式 建立 起 来 。 接 着 详细 研究 
了 决策 树 C&RT 算 法 对 应 的 数学 模型 和 算法 架构 流程 。 最 后 通过 一 个 实际 的 例子 来 演 
示 决 策 树 C&RT 算 法 是 如 何 一 步 一 步 进行 分 类 的 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 技 法 》 课 程 
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VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Decision Tree 模型 。Decision Tree 算法 的 核心 是 通过 递归 的 方 
式 ， 将 数据 集 不 断 进行 切割 ， 得 到 子 分 文 ， 最 终 形成 数 的 结构 。C&RT 算 法 是 决策 树 

比较 简单 和 常用 的 一 种 算法 ， 其 切割 的 标准 是 根据 纯度 来 进行 ， 每 次 切割 都 是 为 了 让 
分 支 内 部 纯度 最 大 。 最 终 ， 决 策 树 不 同 的 分 支 得 到 不 同 的 gi (x)( 即 树 的 叶子 ，C&RT 
算法 中 ，gi (72) 是 常数 ) 。 本 节 课 将 介绍 随机 森林 (Random Forest) 算法 ， 它 是 我 们 
之 前 介绍 的 Bagging 和 上 节 课 介绍 的 Decision Tree 的 结合 。 


Random Forest Algorithm 


首先 我 们 来 复习 一 下 之 前 介绍 过 的 两 个 机 器 学 习 模 型 :* Bagging 和 Decision Tree, 
Bagging 是 通过 bootstrap 的 方式 ， 从 原始 的 数据 集 D 中 得 到 新 的 妃 ; 然后 再 使 用 一 些 
base algorithm 对 每 个 万 都 得 到 相应 的 9%: 沁 最 后 将 所 有 的 兴 通 过 投票 uniform 的 形式 组 
合成 一 个 G，G 即 为 我 们 最 终 得 到 的 模型 。Decision Tree 是 通过 递归 形式 ， 利 用 分 支 
条 件 ， 将 原始 数据 集 D 切 割 成 一 个 个 子 树 结构 ， 长 成 一 棵 完整 的 树 形 结构 。Decision 
Tree 最 终 得 到 的 G(x) 是 由 相应 的 分 支 条 件 b(x) 和 分 支 树 Ge(z) 递 归 组 成 。 


Bagging 





function Bag(D, A) function DTree(D) 
Faricis... » if termination return base gt 
e NI ^ else 
@ request mae is data Dr oy © learn b(x) and split D to 
ee aes with D 7 De by b(X) 
© obtain base g; by A(D;) 


@ build Gs + DTree(D-) 
return G = Uniform({g;}) O return G(x) = 


» [b(x) = c] Ge(x) 


—reduces variance —large variance 
by voting/averaging especially if fully-grown 


Bagging 和 Decison Tree 算法 各 自 有 一 个 很 重要 的 特点 。Bagging 具 有 减少 不 同 % AST Raper 





差 variance 的 特点 。 这 是 因为 Bagging 采 用 投票 的 形式 ， 将 所 有 giuniform 结 合 起 来 ， 
起 到 了 求 平均 的 作用 ， 从 而 降低 variance。 而 Decision Tree 具 有 增 大 不 同 gi 的 方差 
variance 的 特点 。 这 是 因为 Decision Tree 每 次 切割 的 方式 不 同 ， 而 且 分 支 包 含 的 样本 
数 在 逐渐 减少 ， 所 以 它 对 不 同 的 资料 D 会 比较 敏感 一 些 ， 从 而 不 同 的 D 会 得 到 比较 大 的 
variance。 

所 以 说 ，Bagging 能 减 小 variance， 而 Decision Tree 能 增 大 variance。 如 果 把 两 者 结合 
起 来 ， 能 否 发 挥 各 自 的 优势 ， 起 到 优势 互补 的 作用 呢 ? 这 就 是 我 们 接 下 来 将 要 讨论 的 
aggregation of aggregation， 即 使 用 Bagging 的 方式 把 众多 的 Decision Tree 进 行 
uniform 结 合 起 来 。 这 种 算法 就 叫做 随机 森林 (Random Forest) ， 它 将 完全 长 成 的 
C&RT 决 策 树 通过 bagging 的 形式 结合 起 来 ， 最 终 得 到 一 个 庞大 的 决策 模型 。 


random forest (RF) = bagging + fully-grown C&RT decision tree 


Random Forest 算 法 流程 图 如 下 所 示 : 


function RandomForest(D) function DTree(D) 
Fort =1,2....,7 if termination return base g; 
ize- > else 
@ request size-N data Dr by Q learn b(x) and split D to 


bootstrapping with D 
© obtain tree g: by DTree(D;) 
return G = Uniform({g;}) 


De by b(x) 
@ build G, + DTree(7.) 
© return G(x) = 


x [b(x) = c] Ge(x) 





Random Forest 算 法 的 优点 主要 有 三 个 。 第 一 ， 不 同 决策 树 可 以 由 不 同 主机 并 行 训 练 


通过 bagging 的 形式 结合 起 来 ， 避 免 了 单个 决策 树 造 成 过 拟 合 的 问题 。 


e highly parallel/efficient to learn 
e inherit pros of C&RT 
* eliminate cons of fully-grown tree 





的 结构 更 有 多 样 性 。Bagging 中 ， 通 过 bootstrap 的 方法 得 到 不 同 于 D 的 D'， 使 用 这 些 随 
机 抽取 的 资料 得 到 不 同 的 g:。 除 了 随机 抽取 资料 获得 不 同 gi 的 方式 之 外 ， 还 有 另外 一 
种 方法 ， 就 是 随机 抽取 一 部 分 特征 。 例 如 ， 原 来 有 100 个 特征 ， 现 在 只 从 中 随机 选取 
30 个 来 构成 决策 树 ， 那 么 每 一 轮 得 到 的 树 都 由 不 同 的 30 个 特征 构成 ， 每 棵 树 都 不 一 
样 。 假 设 原来 样本 维度 是 d4， 则 只 选择 其 中 的 qd (dv]-Fd) 个 维度 来 建立 决策 树 结 
构 。 这 类 似 是 一 种 从 d 维 到 d' 维 的 特征 转换 ， 相 当 于 是 从 高 维 到 低 维 的 投影 ， 也 就 是 说 
d' 维 z 空 间 其 实 就 是 d 维 x 空间 的 一 个 随机 子 空间 (subspace) 。 通 常情 ; 况 下 ，d' 远 小 于 
d， 从 而 保证 算法 更 有 效率 。Random Forest 算 法 的 作者 建议 在 构建 C&RT 每 个 分 支 
b(x) 的 时 候 ， 都 可 以 重新 选择 子 特征 来 训练 ， 从 而 得 到 更 具有 多 样 性 的 决策 树 。 


another possibility for diversity: 


randomly sample a’ features from x 


e when sampling index i, i2, ... , igr: 中 (X) SAX Ki --- , Xi,) 


e Z € R”: a random subspace of ¥ c RI 


e often d' < d, efficient for large d 
一 Can be generally applied on other models 


e original RF re-sample new subspace for each b(x) in C&RT 


所 以 说 ， 这 种 增强 的 Random Forest 算 法 增加 了 random-subspace。 


RF = bagging + random-subspace C&RT 


上 面 我 们 讲 的 是 随机 抽取 特征 ， 除 此 之 外 ， 还 可 以 将 现 有 的 特征 x， 通 过 数组 p 进 行 线 
性 组 合 ， 来 保持 多 样 性 : 

di(x) = p? z 
这 种 方法 使 每 次 分 支 得 到 的 不 再 是 单一 的 子 特征 集合 ， 而 是 子 特征 的 线性 组 合 (权重 
不 为 1) 。 好 比 在 二 维 平 面 上 不 止 得 到 水 平 线 和 垂直 线 ， 也 能 得 到 各 种 斜 线 。 这 种 做 法 
使 子 特征 选择 更 加 多 样 性 。 值 得 注意 的 是 ， 不 同 分 支 生 的 p; 是 不 同 的 ， 而 且 向 量 p; 中 
大 部 分 元 素 为 零 ， 因 为 我 们 选择 的 只 是 一 部 分 特征 ， 这 是 一 种 低 维 映射 。 





more powerful features for diversity: row / other than natural basis 
e projection (combination) with random row p; of P: ó;(X) = p/ x 
e often consider low-dimensional projection: 
only d” non-zero components in p; 


e includes random subspace as special case: 
d" — 1 and p; e natural basis 


e original RF consider d' random low-dimensional projections for 
each b(x) in C&RT 


所 以 ， 这 里 的 Random Forest 算 法 又 有 增强 ， 由 原来 的 random-subspace 变 成 了 
random-combination。 顺 便 提 一 下 ， 这 里 的 random-combination 类 似 于 perceptron 模 
型 。 


RF = bagging + random-combination C&RT 
—randomness everywhere! 


Out-Of-Bag Estimate 


上 一 部 分 我 们 已 经 介绍 了 Random Forest 算 法 ， 而 Random Forest 算 法 重要 的 一 点 就 
是 Bagging。 探讨 bagging 中 的 bootstrap 机 制 到 底蕴 售 了 哪些 可 以 为 我 们 
所 用 的 东西 。 


通过 bootstrap 得 到 新 的 样本 集 D'， 再 由 D 训 练 不 同 的 % 。 我 们 知道 D' 中 包含 了 原样 本 
集 D 中 的 一 些 样本 ， 但 也 有 些 样本 没有 涵盖 进去 。 如 下 表 所 示 ， 不 同 的 % 下， 红色 的 
表示 在 妃 ,中 没有 这 些 样 本 。 例 如 对 9g1 来 阅 ，(za, yz ) 和 (zs , 4) 没 有 包含 进去 ， 对 go 
3, (1, yi ) 和 (x2, yz) 没有 包含 进去 ， 等 等 。 每 个 gt 中 ， 红 色 表示 的 样本 被 称 为 
out-of-bag(OOB) example, 


Po Pe [gr 
Gm) || Pi | * | Dat [Dr 
| Cayo) || | * | Ds] | Dr 


BERE s 
ECCE c Rel CR | 





首先 ,我 们 来 计算 OOB 样 本 到 底 有 多 少 。 假 设 bootstrap 的 数量 N'=N， 那 么 某 个 样本 mg 





(zn, yn ) 是 OOB 的 概率 是 : 


1 1 1 1 
dec) cc GET a 





(GE (rx € 
其 中 ，e 是 自然 对 数 ，N 是 原样 本 集 的 数量 。 由 上 述 推导 可 得 ， 每 个 %y 中 ，OOB 数 目 大 
约 是 二 YY， 即 大 约 有 三 分 之 一 的 样本 没有 在 bootstrap 中 被 抽 到 。 


然后 ， 我 们 将 OOB 与 之 前 介绍 的 Validation 进 行 对 比 : 


Validation 





在 Validation 表 格 中 ， 蓝 色 的 Druin 用 来 得 到 不 同 的 or” ， 而 红色 的 Dway 用 来 验证 各 自 
的 gm。Ditrain 与 Dval 没 有 交集 ,一般 Dirainw 是 Dval 的 数 售 关 系 。 再 看 左边 的 OOB 表 
格 ， 之 前 我 们 也 介绍 过 ， 蓝 色 的 部 分 用 来 得 到 不 同 的 g: ， 而 红色 的 部 分 是 OOB 样 本 。 
而 我 们 刚刚 也 推导 过 ， 红 色 部 分 大 约 占 N 的 二 。 通 过 两 个 表格 的 比较 ， 我 们 发 现 OOB 
样本 类 似 于 Day， 那么 是 否 能 使 用 OOB 样 本 来 验证 gi 的 好 坏 呢 ? 答案 是 肯定 的 。 但 
是 ， 通 常 我 们 并 不 需要 对 单个 qt 进行 验证 。 因 为 我 们 更 关心 的 是 由 许多 gi 组 合成 的 
G， 即 使 9 表现 不 太 好 ， 只 要 6G 表现 足够 好 就 行 了 。 那 么 问题 就 转化 成 了 如 何 使 用 
OOB 来 验证 G 的 好 坏 。 方 法 是 先 看 每 一 个 样本 (x , yn ) 是 哪些 gi 的 OOB 资 料 ， 然 后 计 
算 其 在 这 些 % 上 的 表现 ， 最 后 将 所 有 样本 的 表现 求 平均 即 可 。 例 如 ， 样 本 (xN ,VN ) 是 
9g2，93，9T 的 OO0B， 则 可 以 计算 (zw, yn EG (ZX) 上 的 表现 为 : 


Gy (x) = average(g2, 93, gr) 
这 种 做 法 我 们 并 不 陌生 ， 就 像 是 我 们 之 前 介绍 过 的 Leave-One-Out Cross Validation, 
每 次 只 对 一 个 样本 进行 g 的 验证 一 样 ， 只 不 过 这 里 选择 的 是 每 个 样本 是 哪些 0% 的 
OOB， 然 后 再 分 别 进行 Gi (7x) 的 验证 。 每 个 样本 都 当成 验证 资料 一 次 (与 留 一 法 相 
同 ) ， 最 后 计算 所 有 样本 的 平均 表现 : 


] 
Ej (G) = NW 3 err(yn, Gn (Zn)) 


n=1 





五 oow(G) 估 算 的 就 是 G 的 表现 好 坏 。 我 们 把 五 oo 称 为 bagging 或 者 Random Forest 的 


self-validation, 


这 种 self-validation 相 比 于 validation 来 说 还 有 一 个 优点 就 是 它 不 需要 重复 训练 。 如 下 图 
左边 所 示 ， 人 在 通过 Dwi 选择 到 表现 最 好 的 gj, 之 后 ， 还 需要 在 Diroin, 和 Dwval 组 成 的 所 
有 样本 集 D 上 重新 对 该 模型 gj, 训练 一 次 ， 以 得 到 最 终 的 模型 系数 。 但 是 self- 
validation 在 调整 随机 森林 算法 相关 系数 并 得 到 最 小 的 Bob 之后， 就 完成 了 整个 模型 的 
建立 ， 无 需 重新 训练 模型 。 随 机 森林 算法 中 ，self-validation 在 衡量 G 的 表现 上 通常 相 
当 准 确 。 


Previously: by Best Evai RF: by Best Eoop 


gm = Am (D) Gm = RFm: (D) 
nr = argmin Em nr -—. argmin Em 
1<m<M t<m<M 


Em A Eoop(RFm(D)) 


e .use E, for self-validation 
—of RF parameters such 
as d" 


e no re-training needed 


Em = Evai(Am(Prrain)) 





Eoob Often accurate in practice | 





Feature Selection 


如 果 样 本 资料 特征 过 多 ， 假 如 有 10000 个 特征 ， 而 我 们 只 想 从 中 选取 300 个 特征 ， 这 时 
候 就 需要 舍弃 部 分 特征 。 通 常 来 说 ， 需 要 移 除 的 特征 分 为 两 类 : 一 类 是 元 余 特征 ， 即 
特征 出 现 重 复 ， 例 如 “年龄 "和 "生日 ”; 另 一 类 是 不 相关 特征 ， 例 如 疾病 预测 的 时 候 引 入 
的 “保险 状况 "。 这 种 从 d 维 特征 到 d' 维 特征 的 subset-transform 亚 (Z) 称 为 Feature 
Selection， 最 终 使 用 这 些 d' 维 的 特征 进行 模型 训练 。 





for X = (X1, Xo,...,Xq), want to remove 
e redundant features: like keeping one of ‘age’ and ‘full birthday’ 
e irrelevant features: like insurance type for cancer prediction 
and only ‘learn’ subset-transform ®(x) = (x; . X;. Xi, ) 
with d' < d for g(®(x)) 


特征 选择 的 优点 是 : 


。 提高 效率 ， 特 征 越 少 ， 模 型 越 简 单 

。 正则 化 ， 防 止 特征 过 多 出 现 过 拟 合 

。 去 除 无 关 特 征 ， 保 留 相关 性 大 的 特征 ， 解 释 性 强 
同时 ， 特 征 选择 的 缺点 是 : 

。 筛选 特征 的 计算 量 较 大 

。 不 同 特征 组 合 ， 也 容易 发 生 过 拟 合 

。 容易 选 到 无 关 特 征 ， 解 释 性 差 


advantages: FE disadvantages: 
e efficiency: simpler e computation: 
hypothesis and shorter ‘combinatorial’ optimization 
prediction time in training 
e generalization: feature * overfit: ‘combinatorial’ 
noise' removed selection 
e interpretability e mis-interpretability 


值得 一 提 的 是 ， 在 decision tree 中 ， 我 们 使 用 的 decision stump 切 割 方式 也 是 一 种 


feature selection, 


那么 ， 如 何 对 许多 维特 征 进 行 筛选 呢 ” 我 们 可 以 通过 计算 出 每 个 特征 的 重要 性 ( 即 权 
重 ) ， 然 后 再 根据 重要 性 的 排序 进行 选择 即 可 。 


idea: if possible to calculate 
importance(/) for i = 1,2,...,d 


then can select 4, io,.... ig of top-d' importance 





这 种 方法 在 线性 模型 中 比较 容易 计算 。 因 为 线性 模型 的 score 是 由 每 个 特征 经 过 加 权 求 
和 而 得 到 的 ， 而 加 权 系 数 的 绝对 值 |wi | 正好 代表 了 对 应 特征 x; 的 重要 性 为 多 少 。|wi| 

越 大 ， 表 示 对 应 特征 x; 越 重要 ， 则 该 特征 应 该 被 选择 。w 的 值 可 以 通过 对 已 有 的 数据 

集 (xi, yi ) 建 立 线性 模型 而 得 到 。 


importance by linear model 


d 
score = w'x = Y wx 
i=1 
e intuitive estimate: importance(/) = |w;| with some ‘good’ w 
e getting ‘good’ w: learned from data 
e non-linear models? often much harder 


然而 ， 对 于 非 线 性 模型 来 说 ， 因 为 不 同 特征 可 能 是 非 线性 交叉 在 一 起 的 ， 所 以 计算 每 
个 特征 的 重要 性 就 变 得 比较 复杂 和 困难 。 例 如 ，Random';Forest 就 是 一 个 非 线 性 模 
型 ， 接 下 来 ， 我 们 将 讨论 如 何在 RF 下 进行 特征 选择 。 


RF 中 ， 特 征 选择 的 核心 思想 是 random test, random test 的 做 法 是 对 于 某 个 特征 ， 如 
果 用 另外 一 个 随机 值 替代 它 之 后 的 表现 比 之 前 更 差 ， 则 表明 该 特征 比较 重要 ， 所 占 的 
权重 应 该 较 大 ， 不 能 用 一 个 随机 值 蔡 代 :相反 ， 如 果 随 机 值 蔡 代 后 的 表现 没有 太 大 差 
别 ， 则 表明 该 特征 不 那么 重要 ， 可 有 可 无 。 所 以 ， 通 过 比较 某 特征 被 随机 值 蔡 代 前 后 
的 表现 ， 就 能 推断 出 该 特征 的 权重 和 重要 性 。 


那么 random test 中 的 随机 值 如 何 选择 呢 ” 通常 有 两 种 方法 : 一 是 使 用 uniform 或 者 
gaussian 抽 取 随 机 值 蔡 换 原 特征 ; 一 是 通过 permutation 的 方式 将 原来 的 所 有 N 个 样本 
的 第 i 个 特征 值 重新 打 乱 分 布 (相当 于 重新 洗 牌 ) 。 比 较 而 言 ， 第 二 种 方法 更 加 科学 ， 
保证 了 特征 替代 值 与 原 特征 的 分 布 是 近似 的 (只 是 重新 洗 牌 而 已 ) 。 这 种 方法 叫做 
permutation test (随机 排序 测试 ) ， 即 在 计算 第 i 个 特征 的 重要 性 的 时 候 ， 将 N 个 样本 
的 第 i 个 特征 重新 洗 牌 ， 然 后 比较 D 和 DY) 表现 的 差异 性 。 如 果 差 异 很 大 ， 则 表明 第 | 个 
特征 是 重要 的 。 





e which random values? 


e uniform, Gaussian, ...: P(x;) changed 
* bootstrap, permutation (of {xn,i}^_;): P(x;) approximately 
remained 


e permutation test: 
importance(i) = performance(D) — performance(D") 


with DP) is D with {x,;} replaced by permuted {xni} i 


AE f permutation test 的 原理 后 ， 接 下 来 要 考虑 的 问题 是 如 何 衡量 上 图 中 的 
performance， 即 替换 前 后 的 表现 。 显 然 ， 我 们 前 面 介绍 过 performance 可 以 用 

Ej (G) 来 衡量 。 但 是 ， 对 于 N 个 样本 的 第 ;个 特征 值 重新 洗 牌 重 置 的 DV) ， 要 对 它 进 
行 重新 训练 ， 而 且 每 个 特征 都 要 重复 训练 ， 然 后 再 与 原 D 的 表现 进行 比较 ， 过 程 非常 
繁琐 。 为 了 简化 运算 ，RF 的 作者 提出 了 一 种 方法 ， 就 是 把 permutation 的 操作 从 原来 
的 training 上 移 到 了 OOB validation E, iB AE,» (GU? ) > E? (G), tossed, 
在 训练 的 时 候 仍然 使 用 D， 但 是 在 OOB 验 证 的 时 候 ,…. 将 所 有 的 OOB 样 本 的 第 i 个 特征 重 
新 洗 牌 ， 验 证 G 的 表现 。 这 种 做 法 大 大 简化 了 计算 复杂 度 ， 在 RF 的 feature selection 中 
应 用 广泛 。 


e performance(D(P)): needs re-training and validation in general 

e ‘escaping’ validation? OOB in RF 

e original RF solution: importance(/) = Eop(G) — EP (G), 
where EQ comes from replacing each request of x, ; by a 
permuted OOB value 


Random Forest in Action 


最 后 ， 我 们 通过 实际 的 例子 来 看 一 下 RF 的 特点 。 首 先 ， 仍 然 是 一 个 二 元 分 类 的 例子 。 
如 下 图 所 示 ， 左 边 是 一 个 C&RT 树 没有 使 用 bootstrap 得 到 的 模型 分 类 效果 ， 其 中 不 同 
特征 之 间 进 行 了 随机 组 合 ， 所 以 有 斜 线 作为 分 类 线 ; 中 间 是 由 bootstrap (N'=N/2) 后 





gc&hT g: (N = N/2) G with first t trees 
with random combination 
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当 t=100， 即 选择 了 100 棵 树 时 ， 中 间 的 模型 是 第 100 棵 决策 树 构 成 的 ， 还 是 只 有 一 棵 

W, 右边 的 模型 是 由 100 棵 决策 树 bagging 起 来 的 ， 如 下 图 所 示 : 


Ocart gr (N' = N/2) G with first t trees 
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当 t=200 时 : 


Qc&nr gr (N' = N/2) G with first t trees 
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当 t=300 时 : 


gcghT gr (N' = N/2) 

with random combination 
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当 t=500 时 : 





G with first t trees 





G with first t trees 








Oc&nr gi (N' = N/2) G with first t trees 
with random combination 
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当 t=600 时 : 


Qc&RT gi (N' = N/2) G with first t trees 
with random combination 
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34t-700HJ : 


Oc&nr gi (N' = N/2) G with first t trees 
with random combination 
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当 t=800 时 : 


gcghT gt (N’ = N/2) 
with random combination 
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当 t=900 时 : 


Qc&RT g: (N' = N/2) 
with random combination 
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当 t=1000 时 : 


G with first t trees 
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G with first t trees 





gi (N = N/2) G with first t trees 


Oc&nT 
with random combination 
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随 着 树木 个 数 的 增加 ， 我 们 发 现 ， 分 界线 越 来 越 光 滑 而 且 得 到 了 large-margin-like 
boundary， 类 似 于 SVM 一 样 的 效果 。 也 就 是 说， 树木 越 多 ， 分 类 器 的 置信 区 间 越 大 。 
然后 ， 我 们 再 来 看 一 个 比较 复杂 的 例子 ， 二 维 平面 上 分 布 着 许多 离散 点 ， 分 界线 形 如 
sin 国 数 。 当 只 有 一 棵 树 的 时 候 (t=1) ， 下 图 左边 表示 单一 树 组 成 的 RF ， 右 边 表 示 所 
有 树 bagging 组 合 起 来 构成 的 RF。 因 为 只 有 一 棵 树 ， 所 以 左右 两 边 效 果 一 致 。 
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当 t=11 时 : 


gt (N' = N/2) G with first t trees 
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当 t=16 时 : 





G with first t tree 





当 t=21 时 : 


gt (N = N/2) G with first t tree 
Ama LI © » 





可 以 看 到 ， 当 RF 由 21 棵 树 构成 的 时 候 ， 分 界线 就 比较 平滑 了 ， 而 且 它 的 边界 比 单一 树 
构成 的 RF 要 robust 得 多 ， 更 加 平滑 和 稳定 。 


最 后 ， 基 于 上 面 的 例子 ， 再 让 问题 复杂 一 点 : 在 平面 上 添加 一 些 随机 噪声 。 当 t=1 时 ， 
如 下 图 所 示 : 





G with first t trees 
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gt (N' = N/2) G with first t trees 
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当 t=11 时 : 








G with first t trees 
G with first t trees 






当 t=16 时 : 
当 t=21 时 : 


当 t 
当 t 


G with first t trees 





从 上 图 中 ， 我 们 发 现 21 棵 树 的 时 候 ， 随 机 noise 的 影响 基本 上 能 够 修正 和 消除 。 这 种 
bagging 投 票 的 机 制 能 够 保证 较 好 的 降 品 性 ， 从 而 得 到 比较 稳定 的 结果 。 


经 过 以 上 三 个 例子 ,我 们 发 现 RF 中 ， 树 的 个 数 越 多 ， 模 型 越 稳定 越 能 表现 得 好 。 在 实 
际 应 用 中 ， 应 该 尽 可 能 选择 更 多 的 树 。 值 得 一 提 的 是 , “RF 的 表现 同时 也 与 random 
seed 有 关 ， 即 随机 的 初始 值 也 会 影响 RF 的 表现 。 


cons of RF: may need lots of trees if the 
whole randomyprocess too unstable 
一 Should double-check stability of G 
to ensure enough trees 


总 结 : 


本 节 课 主要 介绍 了 Random Forest 算 法 模型 。RF 将 bagging 与 decision tree 结 合 起 来 ， 
通过 把 众多 的 决策 树 组 进行 组 合 ， 构 成 森林 的 形式 ， 利 用 投票 机 制 让 G 表 现 最 佳 ， 分 
类 模型 更 稳定 。 其 中 为 了 让 decision tree 的 随机 性 更 强 一 些 ， 可 以 采用 randomly 
projected subspaces 操 作 ， 即 将 不 同 的 features 线 性 组 合 起 来 ， 从 而 进行 各 式 各 样 的 
切割 。 同 时 ， 我 们 也 介绍 了 可 以 使 用 OOB 样 本 来 进行 self-validation， 然 后 可 以 使 用 
self-validation 来 对 每 个 特征 进行 permutaion test， 得 到 不 同 特征 的 重要 性 ， 从 而 进行 
feature selection。 总 的 来 说 ，RF 算 法 能 够 得 到 比较 平滑 的 边界 ， 稳 定性 强 ， 前 提 是 
有 足够 多 的 树 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技法 》 课 程 








林 轩 田 《 机 器 学 习 技 法 》 课 程 笔记 11 -- Gradient 


Boosted Decision Tree 
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上 节 课 我 们 主要 介绍 了 Random Forest 算 法 模型 。Random Forest 就 是 通过 bagging 的 
方式 将 许多 不 同 的 decision tree 组 合 起 来 。 除 此 之 外 ， 在 decision tree 中 加 入 了 各 种 随 
机 性 和 多 样 性 ， 比 如 不 同 特征 的 线性 组 合 等 。RF 还 可 以 使 用 OOB 样 本 进行 self- 
validation， 而 且 可 以 通过 permutation test 进 行 feature selection。 本 节 课 将 使 用 
Adaptive Boosting 的 方法 来 研究 decision tree 的 一 些 算法 和 模型 。 


Adaptive Boosted Decision Tree 


Random Forest 的 算法 流程 我 们 上 节 课 也 详细 介绍 过 ， 就 是 先 通 过 bootstrapping“ 复 
制 "原样 本 集 D， 得 到 新 的 样本 集 D'; 然后 对 每 个 D' 进 行 训练 得 到 不 同 的 decision tree 和 
对 应 的 % ;最 后 再 将 所 有 的 % 通过 uniform 的 形式 组 合 起 来 ， 即 以 投票 的 方式 得 到 G。 
这 里 采用 的 Bagging 的 方式 ， 也 就 是 把 每 个 % 的 预测 值 直接 相 加 。 现 在 ， 如 果 将 
Bagging 蔡 换 成 AdaBoost， 人 处 理 方式 有 些 不 同 。 首 先 每 轮 bootstrap 得 到 的 D' 中 每 个 样 
会 赋予 不 同 的 权重 ul ;然后 在 每 个 decision tree 中 ， 利 用 这 些 权重 训练 得 到 最 好 的 
gi ;最 后 得 出 每 个 gt 所 十 的 权重 ， 线 性 组 合 得 到 G。 这 种 模型 称 为 AdaBoost-D Tree, 


function RandomForest(D) function AdaBoost-DTree(D) 
EOTS 5 Here]. sr 
© request size-N' data D; by © reweight data by u^ 
bootstrapping with D 
O obtain tree g: by O obtain tree g; by 
Randomized-DTree(D;) DTree(D, u(?)) 


© calculate ‘vote’ a; of gi 


return G = Uniform({9;}) return G = LinearHypo( (gr. ar)}) 





但 是 在 AdaBoost-DTree 中 需要 注意 的 一 点 是 每 个 样本 的 权重 tb 。 我 们 知道 ， 在 
Adaptive Boosting 中 进行 了 bootstrap 操 作 ， 忆 表示 D 中 每 个 样本 在 D' 中 出 现 的 次 
数 。 但 是 在 决策 树 模 型 中 ， 例 如 C&RT 算 法 中 并 没有 引入 区 。 那 么 ， 如 何在 决策 树 c 时 ae 





引入 这 些 权重 人世 来 得 到 不 同 的 % 而 又 不 改变 原来 的 决策 树 算法 呢 ? 


在 Adaptive Boosting 中 ， 我 们 使 用 了 weighted algorithm， 形 如 : 


1 N 
n=1 


每 个 犯错 误 的 样本 点 乘 以 相应 的 权重 ， 求 和 再 平均 ， 最 终 得 到 了 页 * (h)。 如 果 在 决策 
树 中 使 用 这 种 方法 ， 将 当前 分 支 下 犯错 误 的 点 赋予 权重 ， 每 层 分 支 都 这 样 做 ， 会 比较 
复杂 ， 不 易 求解 。 为 了 简化 运算 ， 保 持 决策 树 算法 本 身 的 稳定 性 和 封闭 性 ， 我 们 可 以 
把 决策 树 算法 当成 一 个 黑 盒 子 ， 即 不 改变 其 结构 ， 不 对 算法 本 身 进 行 修改 ， 而 从 数据 
来 源 D' 上 做 一 些 处 理 。 按 照 这 种 思想 ， 我 们 来 看 权重 u 实 际 上 表示 该 样本 在 bootstrap 

中 出 现 的 次 数 ， 反 映 了 它 出 现 的 概率 。 那 么 可 以 根据 u 值 ， 对 原样 本 集 D 进 行 一 次 重新 
的 随机 sampling， 也 就 是 带 权重 的 随机 抽样 。sampling 之 后 ， 会 得 到 一 个 新 的 D'， 

D' 中 每 个 样本 出 现 的 几率 与 它 权 重 u 所 占 的 比例 应 该 是 差不多 接近 的 。 因 此 ， 使 用 带 权 
重 的 sampling 操 作 ， 得 到 了 新 的 样本 数据 集 D'， 可 以 直接 代入 决策 树 进行 训练 ， 从 而 

无 需 改变 决策 树 算 法 结构 。sampling 可 看 成 是 bootstrap 的 反 操 作 ， 这 种 对 数据 本 身 进 
行 修改 而 不 更 改 算法 结构 的 方法 非常 重要 ! 


Weighted Algorithm in A General Randomized Base 
Bagging Algorithm 








weights u expressed by weights u expressed by 
bootstrap-sampled copies sampling proportional to Un 
—request size-N' data D; 一 request size-N' data D; 
by bootstrapping with D by sampling « u on D| 


所 以 ，AdaBoost-DTree 结 合 了 AdaBoost 和 DTree， 但 是 做 了 一 点 小 小 的 改变 ， 就 是 使 
Fisampling&ftt Eu? ， 效 果 是 相同 的 。 


AdaBoost-DTree: often via _ 
AdaBoost + sampling x ut0) + DTree(D;) 
without modifying DTree 


上 面 我 们 通过 使 用 sampling， 将 不 同 的 样本 集 代入 决策 树 中 ， 得 到 不 同 的 g:。 除 此 之 
外 ， 我 们 还 要 确定 每 个 % 所 占 的 权重 ar 。 之 前 我 们 在 AdaBoost 中 已 经 介绍 过 ， 首 先 算 
出 每 个 gi 的 错误 率 et ， 然 后 计算 权重 : 





a, = Ino, = In i 

€t 
如 果 现 在 有 一 棵 完全 长 成 的 树 (fully grown tree) ， 由 所 有 的 样本 x 训 | 练 得 到 。 若 每 
个 样本 都 不 相同 的 话 ， 一 刀 刀 切割 分 支 ， 直 到 所 有 的 zy 都 被 完全 分 开 。 这 时 候 ， 
Ej(gi) — 0, WIRKJE! (g) = 0 而 且 e: 也 为 0， 从 而 得 到 权重 as = oo. o4 = oo 


表示 该 gi 所 占 的 权重 无 限 大 ， 相 当 于 它 一 个 就 决定 了 G 结 构 ， 是 一 种 autocracy， 而 其 
它 的 gt 对 G 没 有 影响 。 


if fully grown tree trained on all x, 
=> Ein(g9:) = 0 if all x, different 
= Ex(9r) =0 


n 
==> ei = 0 


=> a; = oo (autocracy!!) 


显然 Qt = co 不 是 我 们 想 看 到 的 ， 因 为 autocracy 总 是 不 好 的 ， 我 们 希望 使 用 
aggregation 将 不 同 的 % 结 合 起 来 ， 发 挥 集体 智慧 来 得 到 最 好 的 模型 G。 首 先 ， 我 们 来 
看 一 下 什么 原因 造成 了 a* = co。 有 两 个 原因 : 一 个 是 使 用 了 所 有 的 样本 Zn 进行 训 
练 ; 一 个 是 树 的 分 支 过 多 ，fully grown。 针 对 这 两 个 原因 ， 我 们 可 以 对 树 做 一 些 修剪 
(pruned) ， 比 如 只 使 用 一 部 分 样本 ， 这 在 sampling 的 操作 中 已 经 起 到 这 类 作用 ， 
为 必然 有 些 样 本 没有 被 采样 到 。 除 此 之 外 ， 我 们 还 可 以 限制 树 的 高 度 ， 让 分 支 不 要 那 
么 多 ， 从 而 避免 树 fully grown, 


need: pruned tree trained on some x, to be weak 
e pruned: usual pruning, or just limiting tree height 
e some: sampling x ul’) 


因此 ，AdaBoost-DTree 使 用 的 是 pruned DTree， 也 就 是 说 将 这 些 预 测 效果 较 弱 的 树 结 


合 起 来 ， 得 到 最 好 的 G， 避 免 出 现 autocracy。 


AdaBoost-DTree: often via AdaBoost + 
sampling x u(? + pruned DTree(D) 


刚才 我 们 说 了 可 以 限制 树 的 高 度 ， 那 索性 将 树 的 高 度 限制 到 最 低 ， 即 只 有 1 层 高 的 时 
候 ， 有 什么 特性 呢 ? 当 树 高 为 1 的 时 候 ， 整 棵 树 只 有 两 个 分 支 ， 切 割 一 次 即 可 。 如 果 ED 





impurity 是 binary classification error 的 话 ， 那 么 此 时 的 AdaBoost-DTree 就 跟 
AdaBoost-Stump 没 什么 两 样 。 也 就 是 说 AdaBoost-Stump 是 AdaBoost-DTree 的 一 种 特 
殊 情 况 。 


DTree (C&RT) with height < 1 
learn branching criteria 


2 
b(x) = argmin S [Dc with h| - impurity(Dc with h) 
decision stumps h(x) — 4 


— if impurity = binary classification error, 
just a decision stump, remember? :-) 


值得 一 提 是 ， 如 果树 高 为 1 时 ， 通 常 较 难 遇 到 ex — 0 的 情况 区 且 一 般 不 采用 sampling 
的 操作 ， 而 是 直接 将 权重 u 代 入 到 算法 中 。 这 是 因为 此 时 的 AdaBoost-DTree 就 相当 于 
是 AdaBoost-Stump， 而 AdaBoost-Stump 就 是 直接 使 用 u 来 优化 模型 的 。 


Optimization View of AdaBoost 


接 下 来 ， 我 们 继续 将 继续 探讨 AdaBoost 算 法 的 一 些 奥妙 之 处 。 我 们 知道 AdaBoost 中 
的 权重 的 友 代 计算 如 下 所 示 : 


yt") 


uU) -@; if incorrect 
uU) /@, if correct 


= uf? 1 e, rlan) = ud . exp (一 ynatgt(xn)) 


之 前 对 于 incorrect 样 本 和 correct 样 本 ，vwlt+1) 的 表达 式 不 同 。 现 在 ， 把 两 种 情况 结合 
sak, ult) 写成 一 种 简化 的 形式 : 


i = ul) o, Une (mn) 一 u® - eZD( 一 Qt9i(Zn)) 


其 中 ， 对 于 incorrect 样 本 ，y, gi (Xn) « 0， 对 于 correct 样 本 ,yngi (an) > 0。 从 上 
stag, ull) mu 与 某 个 常数 相 乘 得 到 。 所 以 ， 最 后 一 轮 更 新 的 u( D ay 
写成 v 人 的 级 联 形式 ， 我 们 之 前 令 ul) — 志 ， 则 有 如 下 推导 : 





T T 
(T+) — (1) E 
Un = Un * II ezp(—yn Qt gt (zn )) 一 N . exp(—Yn 3 Ot gt (zn )) 


Extr, Argi (zn ) 被 称 为 voting score， 最 终 的 模型 
G = sign(Y5, 4 Qtg9i (zn))。 可 以 看 出 ， 在 AdaBoost 中 ， ud as 
exp(—Yyn (voting score on zn )) 成 正比 。 


sl 
1 i 
T = ut? | | exp(—ynotgt(Xn)) 一 N : exp (= 2 atgt(Xn) ) 
t=1 


ii 


e recall: G(x) = sign | Y ee ) 
t=1 


= 
e 》 aitgt(X) : voting score of {g+} on x 
{=1 





人 il 


AdaBoost: urn x exp(—Yyn( voting score on Xn )) 


接 下 来 我 们 继续 看 一 下 voting score 中 蕴含 了 哪些 内 容 。 如 下 图 所 示 ，voting score 由 
许多 gi (zn ) 乘 以 各 自 的 系数 Qi 线性 组 合 而 成 。 从 另外 一 个 角度 来 看 ， 我 们 可 以 把 

gi (zn ) 看 成 是 对 zn 的 特征 转换 内 (Xn )，aww 就 是 线性 模型 中 的 权重 w;。 看 到 这 里 ,我 
们 回忆 起 之 前 SVM 中 ，w 与 $9(xwn, ) 的 乘积 再 除 以 w 的 长 度 就 是 margin， 即 点 到 边界 的 
距离 。 另 外 ， 乘 积 项 再 与 %h 相 乘 ， 表 示 点 的 位 置 是 在 正确 的 那 一 侧 还 是 错误 的 那 一 
侧 。 所 以 ， 回 过 头 来 ， 这 里 的 voting score 实 际 上 可 以 看 成 是 没有 正规 化 (没有 除 以 w 
的 长 度 ) 的 距离 ， 即 可 以 看 成 是 该 点 到 分 类 边界 距离 的 一 种 衡量 。 从 效果 上 说 ， 距 离 
越 大 越 好 ， 也 就 是 说 voting score 要 尽 可 能 大 一 些 。 


linear blending = LinModel + hypotheses as transform + COFA 


voting score 
T 
G(Xn) = sign >. ot Gi(Xn) 


t=1 M Sita) 


and hard-margin SVM margin = REL. remember? :-) 





我 们 再 来 看 ， 若 voting score 与 网 相 乘 ， 则 表示 一 个 有 对 错 之 分 的 距离 。 也 就 是 说 ， 
如 果 二 者 相 乘 是 负数 ， 则 表示 该 点 在 错误 的 一 边 ， 分 类 错误 ;如 果 二 者 相 乘 是 正 数 ， 
则 表示 该 点 在 正确 的 一 边 ， 分 类 正确 。 所 以 ， 我 们 算法 的 目的 就 是 让 yn Svoting 
score 的 乘积 是 正 的 ， 而 且 越 大 越 好 。 那 么 在 刚刚 推导 的 w& D 中， 得 到 
exp( 一 yn (voting score)) 越 小 越 好 ， 从 而 得 到 vw 避 ”7) 越 小 越 好 。 也 就 是 说， 如 果 
voting score 表 现 不 错 ， 与 ,的 乘积 越 大 的 话 ， 那么 相应 的 w 必 7) 应 该 是 最 小 的 。 


yn(voting score) = signed & unnormalized margin 


want yn(voting score) positive & large 
e exp(—y,(voting score)) small 


T+ 
= uU * small 


那么 在 AdaBoost 中 ， 随 着 每 轮 学 习 的 进行 ， 每 个 样本 的 zz 是 逐渐 减 小 的 ， 直 到 
ul + 了 最小。 以 上 是 从 单个 样本 点 来 看 的 。 总 体 来 看 ,所 有 样本 的 ut + 之 和 应 该 也 
是 最 小 的 。 我 们 的 目标 就 是 在 最 后 一 轮 (T) 学 习 后 ， 让 所 有 样本 的 vt * 之 和 尽 
可 能 地 小 。wu( + 之 和 表示 为 如 下 形式 : 


claim: AdaBoost decreases Ti ul? and thus somewhat minimizes 
N rian Ne AN T 
s ul = N 》 exp (2 axo) 
1 一 1 n=1 t=1 


上 式 中 ， R^ Qt gr (Zn ) 被 称 为 linear score， 用 s 表 示 。 对 于 0/1 error: 若 ys<0， 则 
erro), = 1; Ays>=0, Werro, — 0。 如 下 图 右边 黑色 折线 所 示 。 对 于 上 式 中 提 到 
的 指数 error， 即 efr4D4(s,y) = exp( 一 ys)， 随 着 ys 的 增加 ，error 单 调 下 降 ， 且 始 
终 落 在 0/1 error 折 线 的 上 面 。 如 下 图 右边 蓝 色 曲 线 所 示 。 很 明显 ，efr4p4(s,Y) 可 以 
看 成 是 0/1 error 的 上 界 。 所 以 ， 我 们 可 以 使 用 efr 4 pa (s,y) 来 替代 0/1 error， 能 达到 
同样 的 效果 。 从 这 点 来 说 ， 六 wu 1 可 以 看 成 是 一 种 error measure， 而 我 们 的 
目标 就 是 让 其 最 小 化 ， 求 出 最 小 值 时 对 应 的 各 个 Qi 和 gi (25). 





linear score s = F`} oargi(Xn) 


e ertg/1(S, y) = [ys < 0] 

e €tTapa(S, y) = exp(—ys): 
upper bound of erro; 
—called exponential error 

measure 














Emapa: algorithmic error measure 
by convex upper bound of erro /; 


FBSA ul 取得 最 小 值 ， 思 考 是 否 能 用 梯度 下 降 (gradient 
descent) 的 方法 来 进行 求解 。 我 们 之 前 介绍 过 gradient descent 的 核心 是 在 某 点 处 做 
一 阶 泰勒 展开 : 


recall: gradient descent (remember? :-)), at iteration t 


min Ein(W;+ Vv) = Ein(w:)+ — o  v'VEg«(wi) 
I|vi|21 d > iss ond A w— 41m 
known given positive known 


其 中 ， 必 是 泰勒 展开 的 位 置 ，v 是 所 要 求 的 下 降 的 最 好 方向 ， 它 是 梯度 VEir (wi ) 的 
反方 向 ， 而 7 是 每 次 前 进 的 步 长 。 则 每 次 沿 着 当前 梯度 的 反方 向 走 一 小 步 ， 就 会 不 断 
逼近 谷底 (最 小 值 ) 。 这 就 是 梯度 下 降 算法 所 做 的 事情 。 


现在 ， 我 们 对 五 4Dp4 做 梯度 下 降 算法 处 理 ， 区 别 是 这 里 的 方向 是 一 个 函数 9 ， 而 不 是 
一 个 向 量 w:。 其 实 ， 函 数 和 向 量 的 唯一 区 别 就 是 一 个 下 标 是 连续 的 ， 另 一 个 下 标 是 离 
散 的 ， 二 者 在 梯度 下 降 算 法 应 用 上 并 没有 大 的 区 别 。 因 此 ， 按 照 梯度 下 降 算 法 的 展开 
式 ， 做 出 如 下 推导 : 





at iteration t, to find g;, solve 


N t—1 
s ~ 1 
dis Exwa = N 2. exp (= (Y ag; (X5) + ohx) ) 


Tz 


N 
- 3 ut” exp (—Ynnh(Xn)) 


net 


N N N 
taylor 
& Y uf (1— yonh(xn)) = >> uf? -nY uh? yah(Xn) 
n=1 n=1 


n=1 


ERP, A(z, ) 表 示 当 前 的 方向 ， 它 是 一 个 矩 ，7 是 沿 着 当前 方向 前 进 的 步 长 。 我 们 要 
求 出 这 样 的 (zn) 和 m， 使 得 姜 4p4 是 在 不 断 减 小 的 。 当 方 4p4 取得 最 小 值 的 时 候 ， 
那么 所 有 的 方向 即 最 佳 的 (x;, ) 和 m 就 都 解 出 来 了 。 上 述 推导 使 用 了 在 

一 yanh(zn) = 0 处 的 一 阶 泰勒 展开 近似 。 这 样 经 过 推导 之 后 ， 访 4p4 被 分 解 为 两 个 
部 分 ， 一 个 是 前 N 个 u 之 和 5 ,wu 由 ， 也 就 是 当前 所 有 的 加 这 之 和 ; 另外 一 个 是 包含 
下 一 步 前 进 的 方向 六 (zw ) 和 步 进 长 度 n 的 项 一 n YA ut yhtn). Šapa bni 
式 与 gradient descent 的 形式 基本 是 一 致 的 。 


那么 接 下 来 ， 如 果 要 最 小 化 蕊 4p4 的 话 ， 就 要 让 第 二 项 一 n YA uP y, h (zm, ) 越 小 
越 好 。 则 我 们 的 目标 就 是 找到 一 个 好 的 (#4】( 即 好 的 方向 ) 来 最 小 化 
Y w 四 (一 yh(z))， 此 时 先 忽略 步 进 长 度 。 


finding good h (function direction) & minimize > ul ut (—Ynh(Xn)) 


对 于 binary classification, y, fh (x, ) 均 限定 取 值 -1 或 +1 两 种 。 我 们 对 
Ya uf ( 一 加 za)) 做 一 些 推导 和 平移 运算 : 





for binary classification, where yn and h(xn) both € {—1,+1}: 
N N i 
OFA - ()f —1 if Yn = h(xn) 
Y ramen) = 34 L1 ea 
n=1 n=1 
N N 
(t) (t) J O if Yn = A(Xn) 
FE Un + Un { . 
2. 2. 2 if yn # A(Xn) 


N 
= Soul cago). 


n=1 


一 who minimizes E” (h)? A in AdaBoost! :-) 


BAN ,u(y,h(zn)) 化 简 为 两 项 组 成 ， 一 项 是 - Y Lu; 另 一 项 是 
2E (h) N. WEEST, uw? (一 yh(z)) 就 转化 为 最 小 化 BL (hh)。 要 让 
EO ( 凡 ) 最 小 化 ， 正 是 由 AdaBoost 中 的 base algorithm 所 做 的 事情 。 所 以 说 ， 
AdaBoost 中 的 base algorithm 正 好 帮 有 我 们 找到 了 梯度 下 降 中 下 一 步 最 好 的 函数 方向 。 


A: good g: = h for ‘gradient descent 


以 上 就 是 从 数学 上 ， 从 gradient descent 角 度 验证 了 AdaBoost 中 使 用 base algorithm 得 
到 的 汉 就 是 让 五 4p4 减 小 的 方向 ， 只 不 过 这 个 方向 是 一 个 函数 而 不 是 向 量 。 


在 解决 了 方向 问题 后 ， 我 们 需要 考虑 步 进 长 度 7 如 何 选取 。 方 法 是 在 确定 方向 % 后 ， 
ARAFA, (EEan 取得 最 小 值 。 也 就 是 说 ， 把 如 4p4 看 成 是 步 进 长 度 n 的 函数 ， 
目标 是 找到 如 4p4 最 小 化 时 对 应 的 m 值 。 


x N 
AdaBoost finds g; by approximately min Eu», ue exp (—ynnh(Xn)) 
n=1 


= N 
after finding g;, how about min EAoa 一 》， ul exp (一 yn7gt(Xn)) 
Y n=1 
目的 是 找到 在 最 佳 方向 上 的 最 大 步 进 长 度 ， 也 就 是 steepest decent, HANSEL ADA 
表达 式 写 下 来 : 


n=1 


N 
Bapa = Y un erp(—ynng (zn)) nran 
Pi Ts 





上 式 中 ， 有 两 种 情况 需要 考虑 : 


* Yn = Q (£n): ut  exp(— n) correct 


( 
* Yn E gi(t): ut ) ezp(+n) incorrect 


N 
Bapa = (X u) (1 — e )ezp(—n) + e ezp(+n)) 


n=1 


* optimal n; somewhat ‘greedily faster’ than fixed (small) 7 
—called steepest descent for optimization 
* two Cases inside summation: 
* Yn = gr(Xn) : uf exp (—1) (correct) 
* yn # (Xn) : UW exp (+n) (incorrect) 


© E pA = (Eri un) : (a — €t) exp (—5) ¥ €t exp (+n)) 


] x OE 
然后 对 n 求 导 , SA 二 0, 得: 


1 一 Et 
na = ln,|/—— = a 
Et 

由 此 看 出 ， 最 大 的 步 进 长 度 就 是 af ， 即 AdaBoost 中 计算 % 所 占 的 权重 。 所 以 ， 
AdaBoost 算 法 所 做 的 其 实 是 在 gradient descent 上 找到 下 降 最 快 的 方向 和 最 大 的 步 进 
长 度 。 这 里 的 方向 就 是 9; ， 它 是 一 个 国 数 ， 而 步 进 长 度 就 是 ai 。 也 就 是 说 ， 在 
AdaBoost 中 确定 gt: 和 Qa 的 过 程 就 相当 于 在 gradient descent 上 寻找 最 快 的 下 降 方 向 和 
最 大 的 步 进 长 度 。 


Gradient Boosting 


前 面 我 们 从 gradient descent 的 角度 来 重新 介绍 了 AdaBoost 的 最 优化 求解 方法 。 整 个 
过 程 可 以 概括 为 : 





NU V 
ne ibd N De (-» (È ar9r(Xn) + nha) ) 


T=1 


with binary-output hypothesis h 


以 上 是 针对 binary classification 问 题 。 如 果 往 更 一 般 的 情况 进行 推广 ， 对 于 不 同 的 
error function， 比 如 logistic error function 或 者 regression 中 的 squared error 
function， 那 么 这 种 做 法 是 否 仍然 有 效 呢 ?这 种 情况 下 的 GradientBoost 可 以 写成 如 下 
形式 : 


GradientBoost 
1 Ei - 
min min N 25e (Y argr (Xn) +a : ya) 
fat T=1 N 

with any hypothesis h (usually real-output hypothesis) 
仍然 按照 gradient descent 的 思想 ， 上 式 中 ， 丈 (Zn ) 是 下 一 步 前 进 的 方向 ，7 是 步 进 长 
度 。 此 时 的 error function 不 是 前 面 所 讲 的 exp 了 ， 而 是 任意 的 一 种 error function, 
此 ， 对 应 的 hypothesis 也 不 再 是 binary classification, ， 最 常用 的 是 实数 输出 的 
hypothesis， 例 如 regression; 最 终 的 目标 也 是 求解 最 佳 的 前 进 方向 h(x ) 和 最 快 的 步 
进 长 度 m。 


GradientBoost: allows extension to different 
err for regression/soft classification/etc. 


接 下 来 ， 我 们 就 来 看 看 如 何 求解 regression 的 GradientBoost 问 题 。 它 的 表达 式 如 下 所 


7: 


N = 
N E 2 
min min N 之 ag. (X4) 十 7h(Xn)， Yn) with err(s, y) = (s — y) 


Sn 





利用 梯度 下 降 的 思想 ， 我 们 把 上 式 进行 一 阶 泰勒 展开 ， 写 成 梯度 的 形式 


N N 
: taylor : 1 1 Oerr(S, Yn) 
min... = min X err (Sn, ya) - 9 nh(xn) —— ——- 
h : N n=1 pr aem N n=1 ds Sun 
: N 
= min constants 4- N 2. h(X5) - 2(Sn — Yn) 
= 


上 式 中 ， 由 于 regression 的 error function 是 squared 的 ， 所 以 ， 对 s 的 导数 就 是 

2(Sn 一 加 )。 其 中 标注 灰色 的 部 分 表示 常数 ， 对 最 小 化 求解 并 没有 影响 ， 所 以 可 以 忽 
略 。 很 明显 ， 要 使 上 式 最 小 化 ， 只 要 令 有 (zn ) 是 梯度 2(s, 一 加 ) 的 反方 向 就 行 了 ， 即 
h(tn) = 一 2(sn 一 Yn)。 但 是 直接 这 样 赋值 ， 并 没有 对 h(x ) 的 大 小 进行 限制 ， 一 
般 不 直接 利用 这 个 关系 求 出 h(x ). 


TET 
min constants 十 Tp ae 2h(Xn)(Sn — yn) 


实际 上 h(x ) 的 大 小 并 不 重要 ， 因 为 有 步 进 长 度 %。 那 么 ， 我 们 上 面 的 最 小 化 问题 中 需 
要 对 九 (zw ) 的 大 小 做 些 限制 。 限 制 (z%) 的 一 种 简单 做 法 是 把 (zx ) 的 大 小 当成 一 个 
惩罚 项 (j (x)) 添加 到 上 面 的 最 小 化 问题 中 ， 这 种 做 法 与 regularization 类 似 。 如 下 
图 所 示 ， 经 过 推导 和 整理 ,< 忽略 常数 项 ， 我 们 得 到 最 关心 的 式 子 是 : 


min d (an) — (Yn — 8n))*) 


上 式 是 一 个 完全 平方 项 之 和 ，wy, 一 sn 表示 当前 第 n 个 样本 真实 值 和 预测 值 的 差 ， 称 之 
为 余数 。 余 数 表 示 当 前 预测 能 够 做 到 的 效果 与 真实 值 的 差 值 是 多 少 。 那 么 ， 如 果 我 们 
想 要 让 上 式 最 小 化 ， 求 出 对 应 的 h(xn ) 的 话 ， 只 要 让 h(x ) 尽 可 能 地 接近 余数 

Yn 一 Sn 即 可 。 在 平方 误差 上 尽 可 能 接近 其 实 很 简单 ， 就 是 使 用 regression 的 方法 ， 对 
所 有 N 个 点 (zn, Yn 一 Sn ) 做 squared-error 的 regression， 得 到 的 回归 方程 就 是 我 们 要 
求 的 gi (zn ). 





e magnitude of h does not matter: because 7 will be optimized next 
e penalize large magnitude to avoid naive solution 
N 


min constants + 六 3 (2h(x«)(s» — Yn) + (h(Xn))*) 


N 
门 2 
= constants + N (constant + (h(xn) — (ya — Sn)) ) 


n=1 


e solution of penalized approximate functional gradient: 
squared-error regression on {(Xn, Yn — Sn Sn )} 


ae 


A 


以 上 就 是 使 用 GradientBoost 的 思想 来 解决 regression 问 题 的 方法 ， 其 中 应 用 了 一 个 非 
常 重要 的 概念 ， 就 是 余数 y。 一 sn 。 根 据 这 些 余数 做 regression， 得 到 好 的 矩 9 (£n ) 
， 方 向 函数 gi (zn ) 也 就 是 由 余数 决定 的 。 


GradientBoost for regression: 
find g; = h by regression with residuals 


在 求 出 最 好 的 方向 函数 9% (zn ) 之 后 ， 就 要 来 求 相应 的 步 进 长 度 7。 表 达 式 如 下 : 


after finding g; = h, 


i‘ 
mini Ye 07g. (Xr) +19t(%n)-Yn) with err(s, y) = (s — y)? 


ms ERN ERE 
Sn 


同样 ， 对 上 式 进行 推导 和 化 简 ， 得 到 如 下 表达 式 : 


min F X + 91(Xn) — Yn)” = 7 »»T — Sn) — 1gi(Xa))? 
—one-variable linear regression on {(g;-transformed input, residual)) 


上 了 式 中 也 包含 了 余数 yn 一 Sn, 





么 ， 如 果 我 们 想 要 让 上 式 最 小 化 ， 求 出 对 应 的 7 的 话 ， 只 要 让 79: (zn ) 尽 可 能 地 接近 余 
Ay, 一 sn 即 可 。 显 然 ， 这 也 是 一 个 regression 问 题 ， 而 且 是 一 个 很 简单 的 形 如 y=ax 
的 线性 回归 ， 只 有 一 个 未 知 数 7。 只 要 对 所 有 N 个 点 (79: (En), Yn 一 Sn ) 做 squared- 
error 的 linear regression， 利 用 梯度 下 降 算 法 就 能 得 到 最 佳 的 77。 


将 上 述 这 些 概念 合并 到 一 起 ， 我 们 就 得 到 了 一 个 最 终 的 演算 法 Gradient Boosted 
Decision Tree(GBDT)。 可 能 有 人 会 问 ， 我 们 刚才 一 直 没 有 说 到 Decison Tree， 只 是 讲 
到 了 GradientBoost 啊 ? 下 面 我 们 来 看 看 Decison Tree 究竟 是 在 哪 出 现 并 使 用 的 。 其 实 
刚刚 我 们 在 计算 方向 函数 g% 的 时 候 ， 是 对 所 有 N 个 点 (Zn, Yn 一 sn ) 做 squared-error 的 
regression。 那 么 这 个 回归 算法 就 可 以 是 决策 树 C&RT 模 型 (决策 树 也 可 以 用 来 做 
regression) 。 这 样 ， 就 引入 了 Decision Tree， 并 将 GradientBoost 和 Decision Tree 结 
合 起 来 ， 构 成 了 真正 的 GBDT 算 法 。GBDT 算 法 的 基本 流程 图 如 下 所 示 : 


Gradient Boosted Decision Tree (GBDT) 
$1 zm... I) 
or = i 


© obtain g; by A({(Xn, Yn — 3»)}) where A is a (squared-error) 
regression algorithm 
—how about sampled and pruned C&RT? 


© compute a; = OneVarLinearRegression({(9;(Xn), v. — Sn) 有 
© update s, + Sn + a/9}(Xn) 
return G(x) = Y, argi) 


值得 注意 的 是 ，sx 的 初始 值 一 般 均 设 为 0%， 即 s1 = so =- = sy — 0. BE 
中 ， 方 向 函数 gy 通过 C&RT 算 法 做 regression， 进 行 求解 ， 步 进 长 度 m 通 过 简单 的 单 参 
数 线性 回归 进行 求解 ;然后 每 轮 更 新 sn 的 值 ， 即 s。 人 s, 十 ad % (Xn)。T 轮 迭代 结 
束 后 ， 最 终 得 到 G(x) = Y og (x). 


值得 一 提 的 是 ， 本 节 课 第 一 部 分 介绍 的 AdaBoost-DTree 是 解决 binary classification 问 
题 ， 而 此 处 介绍 的 GBDT 是 解决 regression 问 题 。 二 者 具有 一 定 的 相似 性 ， 可 以 说 
GBDT 就 是 AdaBoost-DTree 的 regression 版 本 。 


GBDT: ‘regression sibling’ of AdaBoost-DTree 
一 Popular in practice 


Summary ofAggregation Models 





从 机 器 学 习 技 法 课程 的 第 7 节 课 笔记 到 现在 的 第 11 节 课 笔 记 ， 我 们 已 经 介绍 完 所 有 的 
aggregation 模 型 了 。 接 下 来 ， 我 们 将 对 这 些 内 容 进 行 一 个 简单 的 总 结 和 概括 。 
首先 ， 我 们 介绍 了 blending。blending 就 是 将 所 有 已 知 的 g: aggregate 结 合 起 来 ， 发 挥 
集体 的 智慧 得 到 G。 值 得 注意 的 一 点 是 这 里 的 gi 都 是 已 知 的 。blending 通 常 有 三 种 形 
xh: 

e uniform: 简单 地 计算 所 有 g 的 平均 值 

。 non-uniform: 所 有 gi 的 线性 组 合 

e conditional: Prag, 的 非 线 性 组 合 


其 中 ，uniform 采 用 投票 、 求 平均 的 形式 更 注重 稳定 性 ; 而 non-uniform 和 conditional 追 
求 的 更 复杂 准确 的 模型 ， 但 存在 过 拟 合 的 危险 。 


blending: aggregate after getting diverse g; | 












conditional 


nonlinear model on 
gt-transformed inputs 






linear model on 
gr-transformed inputs 


simple 
voting/averaging of gt 





uniform for ‘stability’; 
non-uniform/conditional carefully for 
‘complexity’ 


刚才 讲 的 blending 是 建立 在 所 有 gi 已 知 的 情况 。 那 如 果 所 有 gi 未 知 的 情况 ， 对 应 的 就 
是 learning 模 型 ， 做 法 就 是 一 边 学 gt ， 一 边 将 它们 结合 起 来 。learning 通 常 也 有 三 种 形 
式 (与 blending 的 三 种 形式 一 一 对 应 ) : 

e Bagging: 通过 bootstrap 方 法 ， 得 到 不 同 g:， 计 算 所 有 gi 的 平均 值 

e AdaBoost: 通过 bootstrap 方 法 ， 得 到 不 同 g: Prag MAAS 

e Decision Tree: 通过 数据 分 割 的 形式 得 到 不 同 的 g: ， 所 有 gi 的 非 线 性 组 合 


然后 ， 本 节 课 我 们 将 AdaBoost 延 伸 到 另 一 个 模型 GradientBoost。 对 于 regression 问 
题 ，GradientBoost 通 过 residual fitting 的 方式 得 到 最 佳 的 方向 国 数 % 和 步 进 长 度 77。 





learning: aggregate as well as getting diverse g; | 


Bagging AdaBoost 
diverse g; by diverse gr 










Decision Tree 
diverse g; 


















bootstrapping; by reweighting; by data splitting; 
uniform vote linear vote conditional vote 
by nothing :-) by steepest search by branching 


GradientBoost 
diverse g; 

by residual fitting; 
linear vote 

by steepest search 






boosting-like algorithms most popular | 


除了 这 些 基 本 的 aggregation 模 型 之 外 ， 我 们 还 可 以 把 某 些 模型 结合 起 来 得 到 新 的 
aggregation 模 型 。 例 如 ，Bagging 与 Decision Tree 结合 起 来 组 成 了 Random Forest。 
Random Forest 中 的 Decision Tree 是 比较 “茂盛 "的 树 ， 即 每 个 树 的 gi 都 比较 强 一 些 。 
AdaBoost 与 Decision Tree 结合 组 成 了 AdaBoost-DTree。AdaBoost-DTree 的 Decision 
Tree 是 比较 ' 矮 弱 " 的 树 ， 即 每 个 树 的 gz 都 比较 弱 一 些 ， 由 AdaBoost 将 所 有 弱 弱 的 树 结 
合 起 来 ， 让 综合 能 力 更 强 。 同 样 ) GradientBoost 与 Decision Tree 结合 就 构成 了 经 典 的 
算法 GBDT。 


Bagging AdaBoost Decision Tree 










AdaBoost-DTree 


AdaBoost 
+ ‘weak’ DTree 






Random Forest 


randomized bagging 
+ ‘strong’ DTree 





GradientBoost 







GradientBoost 
+ ‘weak’ DTree 


all three frequently used in practice | 





Aggregation 的 核心 是 将 所 有 的 % 结 合 起 来 ， 融 合 到 一 起 ， 即 集体 智慧 的 思想 。 这 种 做 
法 之 所 以 能 得 到 很 好 的 模型 G， 是 因为 aggregation 具 有 两 个 方面 的 优点 : cure 
underfitting 和 cure overfitting。 


第 一 ，aggregation models 有 助 于 防止 欠 拟 合 (underfitting) 。 它 把 所 有 比较 弱 的 ge 
结合 起 来 ， 利 用 集体 智慧 来 获得 比较 好 的 模型 G。aggregation 就 相当 于 是 feature 


transform， 来 获得 复杂 的 学 习 模 型 。 


第 二 ，aggregation models 有 助 于 防止 过 拟 合 (overfiting) 。 它 把 所 有 gi 进行 组 合 ， 

容易 得 到 一 个 比较 中 庸 的 模型 ， 类 似 于 SVM 的 large margin 一 样 的 效果 ， 从 而 避免 一 
些 极端 情况 包括 过 拟 合 的 发 生 。 从 这 个 角度 来 说 ，aggregation 起 到 了 regularization 的 
效果 。 


由 于 aggregation 具 有 这 两 个 方面 的 优点 ， 所 以 在 实际 应 用 中 aggregation models 都 有 
很 好 的 表现 。 


cure underfitting cure overfitting 





e G(x) ‘strong’ e G(x) ‘moderate’ 
e aggregation * aggregation 
=> feature transform => regularization 








proper aggregation (a.k.a. ‘ensemble’) 
=> better performance | 
总 结 


本 节 课 主要 介绍 了 Gradient Boosted Decision Tree。 首 先 讲 如 何 将 AdaBoost 与 

Decision Tree 结合 起 来 ， 即 通过 sampling 和 pruning 的 方法 得 到 AdaBoost-D Tree 模 
型 。 然 后 ， 我 们 从 optimization 的 角度 来 看 AdaBoost， 找 到 好 的 hypothesis 也 就 是 找到 
一 个 好 的 方向 ， 找 到 权重 Qa 也 就 是 找到 合适 的 步 进 长 度 。 接 着 ,我 们 从 binary 





classification 的 0/1 error 推 广 到 其 它 的 error function， 从 Gradient Boosting 角 度 推导 了 
regression 的 squared error 形 式 。Gradient Boosting Akm ENEMA, (residual 
fitting。 并 将 其 与 Decision Tree 算法 结合 ， 得 到 了 经 典 的 GBDT 算 法 。 最 后 ， 我 们 将 所 
有 的 aggregation models 做 了 总 结 和 概括 ， 这 些 模型 有 的 能 防止 从 拟 合 有 的 能 防止 过 
拟 合 ， 应 用 十 分 广泛 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 技 法 》 课 程 
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VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Gradient Boosted Decision Tree。GBDT 通 过 使 用 functional 
gradient 的 方法 得 到 一 棵 一 棵 不 同 的 树 ， 然 后 再 使 用 steepest descent 的 方式 给 予 每 棵 
树 不 同 的 权重 ， 最 后 可 以 用 来 处 理 任何 而 定 error measure。 上 节 课 介绍 的 GBDT 是 以 
regression 为 例 进行 介绍 的 ， 使 用 的 是 squared error measure。 本 节 课 讲 介绍 一 种 出 
现时 间 较 早 ， 但 当下 又 非常 火 的 一 种 机 器 算法 模型 ， 就 是 神经 网 络 (Neural 
Network) 。 


Motivation 
在 之 前 的 机 器 学 习 基 石 课程 中 ， 我 们 就 接触 过 Perceptron 模 型 了 ， 例 如 PLA 算 法 。 


Perceptron 就 是 在 和 矩 9: (2Z) 外 面 加 上 一 个 sign 函 数 ， 取 值 为 (1+1}。 现 在 ， 如 果 把 许多 
perceptrons 线 性 组 合 起 来 ， 得 到 的 模型 G 就 如 下 图 所 示 : 


Y1 
e 


M, zo ^ 
N X d$ a3 m " T E 
nosa ag L8 e G(x) = sign | 3 a sign (wx) 
\ AÀ "Y t=1 — 
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AX 











x |= x po a : 
| | EDEN V gr(x) 
/HAR wd * two layers of weights: 
|| CE wi and a 
f wa s two layers of sign functions: 
| | ue in gr and in G 
d 一 一 一 二 一 :一 一 N - 


将 左边 的 输入 (zx0, 21, Z?)…… , Za) 与 T 个 不 同 的 权重 (w1, w2,- , wr ) 相 乘 (每 个 
wi 是 d+1 维 的 ) ， 得 到 T 个 不 同 的 perceptrons 为 (91, 9?,… , 97 )。 最 后 ,每 个 gi 给 
予 不 同 的 权重 (al , Q2,*…… , QT )， 线 性 组 合 得 到 G。G 也 是 一 个 perceptron 模 型 。 


从 结构 上 来 说 ， 上 面 这 个 模型 包含 了 两 层 的 权重 ,分 别 是 wt 和 Qa。 同时 也 包含 了 两 层 证 
的 sign 遂 数 ， 分 别 是 gt: 和 G。 那 么 这 样 一 个 由 许多 感知 机 linear aggregation 的 模型 能 rit 







实现 什么 样 的 boundary 呢 ? 

举 个 简单 的 例子 ， 如 下 图 所 示 ，g1 和 g2 分 别 是 平面 上 两 个 perceptrons。 其 中 ， 红 色 表 
示 -1， 赣 色 表 示 +1。 这 两 个 perceptrons 线 性 组 合 可 能 得 到 下 图 右 侧 的 模型 ， 这 表示 的 
是 gil 和 gs 进行 与 (AND) 的 操作 ， 蓝 色 区 域 表 示 +1。 





91 go AND(91, 92) 


如 何 通过 感知 机 模型 来 实现 上 述 的 AN D(g1, go ) 逻 辑 操作 呢 ? 一 种 方法 是 令 第 二 层 
中 的 ao = 一 1, al = 十 1, aa = 十 1。 这 样 ，G(X) 就 可 表示 为 : 


G(x) = sign(—1,+ g(x) + g2 (2)) 
91 和 92 的 取 值 是 (-1+1}， 当 91 = —1, g2 = —1Rj, G(x)-0; 当 


gı =—1, g» = +1}, G(x)=0; 当 91 = +1, 92 = 一 1 时 ，G(x)=0; 当 
gı = +1, g2 = 十 1 时 ，G(x)=1。 感知 机 模型 如 下 所 示 : 


G(x) = sign (—1+91(x)+g2(x)) 


S eo: © gi(x) = go(x) = +1 (TRUE): 
Xy — ms G(x) = +1 (TRUE) 
P Am pu. EN ^» s otherwise: 

^ P [E G(x) = —1 (FALSE) 
WA * G= AND(g1, go) 


X) —1 


™~ 











Xg | 
这 个 例子 说 明了 一 些 简单 的 线性 边界 ， 如 上 面 的 g1 和 g2 ， 在 经 过 一 层 感知 机 模型 ， 经 
线性 组 合 后 ， 可 以 得 到 一 些 非 线性 的 复杂 边界 (AND 运 算 ) G(x), 
除 此 之 外 ,或 (OR) 运算 和 非 (NOT) 运算 都 可 以 由 感知 机 建立 相应 的 模型 ， 非 常 
简单 。 m 





所 以 说 ，linear aggregation of perceptrons 实 际 上 是 非常 powerful 的 模型 同时 也 是 非常 
complicated 模 型 。 再 看 下 面 一 个 例子 ， 如 果 二 维 平面 上 有 个 圆 形 区 域 ， 圆 内 表示 +1， 

圆 外 表示 -1。 这 样 复杂 的 圆 形 边界 是 没有 办 法 使 用 单一 perceptron 来 解决 的 。 如 果 使 

用 8 个 perceptrons， 用 刚才 的 方法 线性 组 合 起 来 ， 能 够 得 到 一 个 很 接近 圆 形 的 边界 

( 八 边 形 ) 。 如 果 使 用 16 个 perceptrons， 那 么 得 到 的 边界 更 接近 圆 形 (十 六 边 形 ) 。 

因此 ， 使 用 的 perceptrons 越 多 ， 就 能 得 到 各 种 任意 的 convex set， 即 凸 多 边 形 边界 。 

之 前 我 们 在 机 器 学 习 基石 中 介绍 过 ，convex set 的 VC Dimension 趋 向 于 无 穷 大 (2N 

) 。 这 表示 只 要 perceptrons 够 多 ， 我 们 能 得 到 任意 可 能 的 情况 ， 可 能 的 模型 。 但 是 ， 

这 样 的 坏处 是 模型 复杂 度 可 能 会 变 得 很 大 ， 从 而 造成 过 拟 合 (overfiting) 。 





8 perceptrons 16 perceptrons target boundary 


ə ‘convex set’ hypotheses implemented: 7... — œ, remember? :-) 
* powerfulness: enough perceptrons ~ Smooth boundary 


总 的 来 说 ， 足 够 数目 的 perceptrons 线 性 组 合 能 够 得 到 比较 平滑 的 边界 和 稳定 的 模型 ， 
这 也 是 aggregation 的 特点 之 一 。 

但 是 ， 也 有 单 层 perceptrons 线 性 组 合 做 不 到 的 事情 。 例 如 刚才 我 们 将 的 AND、OR、 
NOT 三 种 逻辑 运算 都 可 以 由 单 层 perceptrons 做 到 ， 而 如 果 是 异 或 (XOR) 操作 ， 就 没 
有 办 法 只 用 单 层 perceptrons 实 现 。 这 是 因为 XOR 得 到 的 是 非 线性 可 分 的 区 域 ， 如 下 图 
所 示 ， 没 有 办 法 由 9l 和 902? 线性 组 合 实现 。 所 以 说 linear aggregation of perceptrons 模 
型 的 复杂 度 还 是 有 限制 的 。 


gı ge XOR(91, 92) 
e limitation: XOR not ‘linear separable’ under (x) = (gı (Xx), go(x)) 


那么 ， 为 了 实现 XOR 操 作 ， 可 以 使 用 多 层 perceptrons， 也 就 是 说 一 次 transform 不 
行 ， 我 们 就 用 多 层 的 transform ， 这 其 实 就 是 Basic Neural Network 的 基本 原型 。 





我 们 就 党 试 使 用 两 层 perceptrons 来 实现 XOR 的 操作 。 
首先 ， 根 据 布尔 运算 ， 异 或 XOR 操 作 可 以 拆 分 成 : 
XOR(g1,g2) = OR(AND(—91, 92), AND(g1, —92)) 


这 种 拆 分 实际 上 就 包含 了 两 层 transform。 第 一 层 仪 有 AND 操 作 ， 第 二 层 是 OR 操 作 。 
这 种 两 层 的 感知 机 模型 如 下 所 示 : 


| Gz 
XOR(g1, 92) 





x4 ae 


了 这样， 从 AND 操 作 到 XOR 操 作 ， 从 简单 的 aggregation of perceptrons#||multi-layer 
perceptrons， 感 知 机 层 数 在 增加 ， 模 型 的 复杂 度 也 在 增加 ， 使 最 后 得 到 的 G 能 更 容易 
解决 一 些 非 线性 的 复杂 问题 。 这 就 是 基本 神经 网 络 的 基本 模型 。 


perceptron (Simple) 
=> aggregation of perceptrons (powerful) 
=> multi-layer perceptrons (more powerful) | 


顺便 提 一 下 ， 这 里 所 说 的 感知 机 模型 实际 上 就 是 在 模仿 人 类 的 神经 元 模型 (这 就 是 
Neural Network 名 称 的 由 来 ) 。 感 知 机 模型 每 个 节点 的 输入 就 对 应 神经 元 的 树 突 
dendrite， 感 知 机 每 个 节点 的 输出 就 对 应 神经 元 的 轴 突 axon。 


Neural Network Hypothesis 
上 一 部 分 我 们 介绍 的 这 种 感知 机 模型 其 实 就 是 Neural Network。 输 入 部 分 经 过 一 层 一 


层 的 运算 ， 相 当 于 一 层 一 层 的 transform， 最 后 通过 最 后 一 层 的 权重 ， 得 到 一 个 分 数 
score。 即 在 OUTPUT 层 ， 输 出 的 就 是 一 个 线性 模型 。 得 到 s 后 ， 下 一 步 再 进行 处 理 。 





e OUTPUT: simply a 
linear model with 
s = wP (G0) (x)) 
e any linear model can be 
used—remember? :-) 





我 们 之 前 已 经 介绍 过 三 种 线性 模型 : linear classification, linear regression, logistic 
regression。 那 么 ， 对 于 OUTPUT 层 的 分 数 s， 根 据 具 体 问题 ， 可 以 选择 最 合适 的 线性 
模型 。 如 果 是 binary classification 问 题 ， 可 以 选择 linear classification 模 型 ， 如果 是 
linear regression 问 题 ， 可 以 选择 linear regression 模 型 ; 如 果 是 soft classification 问 
题 ， 则 可 以 选择 logistic regression 模 型 。 本 节 课 接 下 来 将 以 linear regression 为 例 ， 选 
择 squared error 来 进行 衡量 。 





linear classification ‘linear regression logistic regression 
h(x) = sign(s) h(x) =s h(x) = @(s) 

Xo Xp Xo 

Xx; " Xj X; 

X; h(X) | x, 4 h(x) | x: : h(x) 

Xa Xa Xa 

err = 0/1 err = Squared err = cross-entropy 





上 面 讲 的 是 OUTPUT 层 ,对 于 中 间 层 ， 每 个 节点 对 应 一 个 perceptron， 都 有 一 个 
transform 运 算 。 上 文 我 们 已 经 介绍 过 的 transformation function 是 阶梯 函数 sign()。 那 
除了 sign0) 通 数 外 ， 有 没有 其 他 的 transformation function 呢 ? 


如 果 每 个 节点 的 transformation function 都 是 线性 运算 ( 跟 OUTPUT 端 一 样 ) ， 那 么 由 
每 个 节点 的 线性 模型 组 合成 的 神经 网 络 模型 也 必然 是 线性 的 。 这 跟 直 接 使 用 一 个 线性 
模型 在 效果 上 并 没有 什么 差异 ， 模 型 能 力 不 强 ， 反 而 花费 了 更 多 不 必要 的 力气 。 所 以 
一 般 来 说 ， 中 间 节 点 不 会 选择 线性 模型 。 

如 果 每 个 节点 的 transformation function 都 是 阶梯 函数 ( 即 sign() 函 数 ) 。 这 是 一 个 非 
线性 模型 ， 但 是 由 于 阶梯 函数 是 离散 的 ， 并 不 是 处 处 可 导 ， 所 以 在 优化 计算 时 比较 难 
处 理 。 所 以 ， 一 般 也 不 选择 阶梯 函数 作为 transformation function, 


既然 线性 函数 和 阶梯 函数 都 不 太 适 合作 为 transformation function ， 那 么 最 常用 的 一 种 
transformation function 就 是 tanh(s)， 其 表达 式 如 下 : 





exp(s) — exp(—s) 

exp(s) + exp(—s) 

tanh(s) 孙 数 是 一 个 平滑 函数 ， 类 似 's 型 。 当 |s| 比 较 大 的 时 候 ，tanh(s) 与 阶梯 函数 相 
近 ; 当 |s| 比 较 小 的 时 候 ，tanh(s) 与 线性 函数 比较 接近 。 从 数学 上 来 说 ， 由 于 处 处 连续 
可 导 ， 便 于 最 优化 计算 。 而 且 形 状 上 类 似 阶梯 函数 ， 具 有 非 线性 的 性 质 ， 可 以 得 到 比 
较 复 杂 强 大 的 模型 。 


顺便 提 一 下 ，tanh(Xx) 函 数 与 sigmoid 国 数 人 存在 下 列 关 系 : 
tanh(s) = 20(2s) — 1 


tanh(s) = 


Hh, 


1 


he) 1+ exp(—s) 


e | : transformation function 
of score (signal) s 
e any transformation? 


B P : whole network linear & 
thus less useful 
: discrete & thus hard to 
optimize for w 
e popular choice of 
transformation: = tanh(s) 
e ‘analog’ approximation of 
: easier to optimize 
* somewhat closer to 
biological neuron tanh(s) = 
e not that new! :-) 








exp(s) — exp(—s) 
exp(s) + exp(—s) 
= 20(2s)—1 





那么 ， 接 下 来 我 们 就 使 用 tanh 遂 数 作为 神经 网 络 中 间 层 的 transformation function, PF 
有 的 数学 推导 也 基于 此 。 实 际 应 用 中 ， 可 以 选择 其 它 的 transformation function， 不 同 
的 transformation function, 则 有 不 同 的 推导 过 程 。 


下 面 我 们 将 仔细 来 看 看 Neural Network Hypothesis 的 结构 。 如 下 图 所 示 ， 该 神经 网 络 
左边 是 输入 层 ， 中 间 两 层 是 隐藏 层 ， 右 边 是 输出 层 。 整 体 上 来 说， 我 们 设 定 输入 层 为 
第 0 层 ， 然 后 往 右 分 别 是 第 一 层 、 第 二 层 ， 输 出 层 即 为 第 3 层 。 








Neural Network Hypothesisrh, d(9 , q(U, ..., d( 耻 分 别 表示 神经 网 络 的 第 几 层 ， 其 
中 为 总 层 数 。 例 如 上 图 所 示 的 是 3 层 神经 网 络 ，L=3。 我 们 先 来 看 看 每 一 层 的 权重 
wj) ， 上 标 满 足 1 < 1 < 卫 ， 表 示 是 位 于 哪 一 层 。 下 标 满 足 0 <i < dl), erat 
一 层 输出 的 个 数 加 上 bias 项 (常数 项 ) 。 下 标 满 足 1 < j < d() ， 表 示 该 层 节点 的 个 
数 (不 包括 bias 项 ) 。 

对 于 每 层 的 分 数 score， 它 的 表达 式 为 : 


da^» 
P-E 
i=0 


对 于 每 层 的 transformation function ， 它 的 表达 式 为 : 


() _ Van ifl< L 


2 ifl=L 


因为 是 regression 模 型 ， 所 以 在 输出 层 (=L) 直接 得 到 zy) = sU, 





d()-q)-q(?)-. ..-d Neural Network (NNet) 


1stsL layers qi» 
1<j<d® outputs i=0 


tanh (s?) EFcE 
sf HEZE 


A 


transformed xf) ={ 


介绍 完 Neural Network Hypothesis 的 结构 之 后 ， 我 们 来 研究 下 这 种 算法 结构 到 底 有 什 
么 实际 的 物理 意义 。 还 是 看 上 面 的 神经 网 络 结构 图 ， 每 一 层 输入 到 输出 的 运算 过 程 ， 


实际 上 都 是 一 种 transformation ， 而 转换 的 关键 在 于 每 个 权重 值 wiz 。 每 层 网 络 利用 轩 司 


入 x 和 权重 w 的 乘积 ， 在 经 过 tanh 函 数 ， 得 到 该 层 的 输出 ， 从 左 到 右 ， 一 层 一 层 地 进 





行 。 其 中 ， 很 明显 ，x 和 w 的 乘积 并 上 wa! 0) 越 大 ， 那 么 tanh(wx) 就 会 越 接近 
1， 表 明 这 种 transformation 效 果 越 好 。 再 想 一 下 ，w 和 x 是 两 个 向 量 ， 乘 积 越 大 ， 表 明 
两 个 向 量 内 积 越 大 ， 越 接近 平行 ， 则 表明 w 和 x 有 模式 上 的 相似 性 。 从 而 ， 更 进一步 说 
明了 如 果 每 一 层 的 输入 向 量 x 和 权重 向 量 w 具 有 模式 上 的 相似 性 ， 比 较 接近 平行 ， 那 么 
transformation 的 效果 就 比较 好 ， 就 能 得 到 表现 良好 的 神经 网 络 模型 。 也 就 是 说 ， 神 经 
网 络 训练 的 核心 就 是 pattern extraction， 即 从 数据 中 找到 数据 本 身 蕴 合 的 模式 和 规 
律 。 通 过 一 层 一 层 找到 这 些 模式 ， 找 到 与 输入 向 量 x 最 契合 的 权重 向 量 w， 最 后 再 由 G 
输出 结果 。 


e each layer: transformation to be learned from data 


d=) 
(0) (e-1) 
e o? (x) = tanh | às ^ | 


—whether x matches weight vectors in pattern 


NNet: pattern extraction with 
layers of connection weights | 


Neural Network Learning 





我 们 已 经 介绍 了 Neural Network Hypothesis 的 结构 和 算法 流程 。 确 定 网 络 结构 其 实 就 
是 确定 各 层 的 权重 值 wW。 那 如 何 根据 已 有 的 样本 数据 ， 找 到 最 佳 的 权重 wM 使 error 
最 小 化 呢 ?7 下 面 我 们 将 详细 推导 . 





首先 ， 我 们 的 目标 是 找到 最 佳 的 w LEE ({wl? } ) 最 小 化 。 如 果 只 有 一 层 隐 藏 层 ， 
就 相当 于 是 aggregation of perceptrons。 可 以 使 用 我 们 上 节 课 介绍 的 gradient 





通过 C&RT 算 法 计算 的 到 。 这 不 是 神经 网 络 常用 的 算法 。 如 果 隐 藏 层 个 数 有 两 个 或 者 
更 多 ， 那 么 aggregation of perceptrons 的 方法 就 行 不 通 了 。 就 要 考虑 使 用 其 它 方法 。 


根据 error function 的 思想 ， 从 输出 层 来 看 ， 我 们 可 以 得 到 每 个 样本 神经 网 络 预测 值 与 
实际 值 之 间 的 squared error: en = (Yn 一 NNet(xn))*， 这 是 单个 样本 点 的 error。 
那么 ， 我 们 只 要 能 建立 en 与 每 个 权重 wM 的 函数 关系 ， 就 可 以 利用 GD 或 SGD 算 法 对 
uw 弛 求 偏 微分 ， 不 断 迁 代 优化 wj 值 ， 最 终 得 到 使 ev 最 小 时 对 应 的 wj 。 


ij 
e one hidden layer: simply aggregation of perceptrons 
一 0radient boosting to determine hidden neuron one by one 
e multiple hidden layers? not easy 
e let en = (yn — NNet(x,))*: | 
can apply (stochastic) GD after computing 5 
ij 


* goal: learning all {wh} to minimize Ein ((wj)) 


为 了 建立 en 与 各 层 权重 wy WEA, Rie Nw! AGS, RREN 
出 层 如 何 计算 了 各。en 与 wil 的 函数 关系 为 ; 





2 
g(L—-1) 
oo 


i=0 


计算 en uly 的 偏 导数 ， 得 到 : 





specially (output layer) 





ORES: nn) 


Oen 
(L) 





OW; 
Den as) 
as) ow 


= (p=) (uo) 


以 上 是 输出 层 求 偏 导 的 结果 。 如 果 是 其 它 层 ， 即 1 Z 到， 偏 导 计 算 可 以 写成 如 下 形 
式 : 





generally (1 
UPS 





之 s. (x ») 


HRS, $e, SHER NESTA s P 的 偏 导 数 记 为 6 。 即 
den 


— 
0s 


j 


当 = Lat, 6”) = 一 2( — s(P); 当 ! 天 工时，6 人 是 未 知 的 ， 下 面 我 们 将 进行 
运算 推导 ， 看 看 不 同 层 之 间 的 6( 是 否 有 递 推 关 系 。 





sf) 


(£) tanh | (/) “ik : 


如 上 图 所 示 ， 第 I 层 第 | 个 神经 元 的 分 数 s)" 经 过 tanh 函 数 ， 得 到 该 层 输出 z)) ， 再 与 下 
Saul, ) 相 乘 ， 得 到 第 |+1 层 的 分 数 sy ) ， 直 到 最 后 的 输出 层 en。 


那么, 利用 上 面 s Ejs 这 样 的 递 推 关系 ， 我 们 可 以 对 偏 导数 4》) 做 一 些 中 间 变量 
蔡 换 处 理 ， 得 到 如 下 表达 式 : 





59 — den — en Den asl) Oxi 
7 n rm ast) “a os 


Y: (42) (of) (mw (6?) 


— - 4 





(EB MNA, ES RAT PER T BUD TCA NL 
的 sy 与 +1 层 的 所 有 8 P 都 有 关系 。 因 为 8) "参与 到 每 个 sk 的 运算 中 了 。 


这 样 ， 我 们 得 到 了 6( 与 6 的 递 推 关系 。 也 就 是 说 如 果 知 道 了 6 的 值 ， 就 能 推导 出 
6 人 的 值 。 而 最 后 一 层 ， 即 输出 层 的 6(7) = —2(y, — s 人 2) ) ， 那 么 就 能 一 层 一 层 往 前 


推导 ， 得 到 每 一 层 的 5) ， 从 而 可 以 计算 出 en 对 各 个 wi) BRS. HEIR 


vij 


之 后 ， 就 可 以 使 用 GD 或 SGD 算 法 进行 权重 的 迭代 优化 ， 最 终 得 到 最 优 解 。 





神经 网 络 中 ， 这 种 从 后 往 前 的 推导 方法 称 为 Backpropagation Algorithm， 即 我 们 常常 
听 到 的 BP 神经 网 络 算法 。 它 的 算法 流程 如 下 所 示 : 





Backprop on NNet 


initialize all weights w^ 
Min i .—r 
© stochastic: randomly pick n € {1,2,--- , N} 
© forward: compute all xe ) with x) = xn 
of? 


© backward: compute all 5''^ subject to x = x, 
(£) 


© gradient descent: w; + w’ T nx| Tout 


return guuer(X) = ( -- tanh (5 wie? ‘tanh (Xi wj x))) 


上 面 采 用 的 是 SGD 的 方法 ， 即 每 次 进 代 更 新 时 只 取 一 个 点 ， 这 种 做 法 一 般 不 够 稳定 。 
所 以 通常 会 采用 mini-batch 的 方法 ， 即 每 次 选取 一 些 数据 ， 例 如 车 ， 来 进行 训练 ， 最 
后 求 平均 值 更 新 权重 w。 这 种 做 法 的 实际 效果 会 比较 好 一 些 。 


Optimization and Regularization 


经 过 以 上 的 分 析 和 推导 ， 我 们 知道 神经 网 络 优化 的 目标 就 是 让 ij, (ww) 最 小 化 。 本 节 
课 我 们 采用 error measure 是 squared errors 当然 也 可 以 采用 其 它 的 错误 衡量 方式 ， 只 
要 在 推导 上 做 稍稍 修改 就 可 以 了 ， 此 处 不 再 乾 述 。 


N 
Ein(w) = Der ( tanh 5 wie - tanh (Y: qi] s) 
n=1 j i 


下 面 我 们 将 主要 分 析 神 经 网 络 的 优化 问题 。 由 于 神经 网 络 由 输入 层 、 多 个 隐藏 层 、 输 
出 层 构 成 ， 结 构 是 比较 复杂 的 非 线 性 模型 ， 因 此 Ei, (由 ) 可 能 有 许多 局 部 最 小 值 ， 是 

non-convex 的 ， 找 到 全 局 最 小 值 (globalminimum) 就 会 困难 许多 。 而 我 们 使 用 GD 或 
SGD 算 法 得 到 的 很 可 能 就 是 局 部 最 小 值 (local minimum) 。 


基于 这 个 间 题 ， 不 同 的 初始 值 权重 w() 通常 会 得 到 不 同 的 local minimum。 也 就 是 说 最 
终 的 输出 6 与 初始 权重 w() 有 很 大 的 关系 。 在 选取 w 上 有 个 技巧 ， 就 是 通常 选择 比 
较 小 的 值 ， 而 且 最 好 是 随机 random 选 择 。 这 是 因为 ， 如 果 权 重 w 很 大 ， 那 么 根据 


tanh 函 数 ， 得 到 的 值 会 分 布 在 两 侧 比较 平缓 的 位 置 (类 似 于 饱和 saturation) ， 这 时 候 
梯度 很 小 ， 每 次 迭代 权重 可 能 只 有 微弱 的 变化 ， 很 难 在 全 局 上 快速 得 到 最 优 解 。 而 随 


机 选择 的 原因 是 通常 对 权重 w( 如何 选择 没有 先 验 经 验 ， 只 能 通过 random， 从 普遍 梯 pee 





率 上 选择 初始 值 ， 随 机 性 避免 了 人 为 因素 的 干预 ， 可 以 说 更 有 可 能 经 过 和 迭 代 优 化 得 到 
全 局 最 优 解 。 


e generally non-convex when multiple hidden layers 
e not easy to reach global minimum 
e GD/SGD with backprop only gives local minimum 


ə different initial wi" ) — different local minimum 


e somewhat ‘sensitive’ to initial weights 
e large weights — saturate (small gradient) 
e advice: try some random & small ones 


下 面 从 理论 上 看 一 下 神经 网 络 模型 的 VC Dimension。 对 于 tanh 这 样 的 transfer 
function， 其 对 应 的 整个 模型 的 复杂 度 dv。 = O(VD)。 其 中 V 是 神经 网 络 中 神经 元 的 
个 数 (不 包括 bias 点 ) ,D 表 示 所 有 权 值 的 数量 。 所 以 ， 如 果 V 足 够 大 的 时 候 ，VC 
Dimension 也 会 非常 大 ， 这 样 神经 网 络 可 以 训练 出 非常 复杂 的 模型 。 但 同时 也 可 能 会 
造成 过 拟 合 overfitting。 所 以 ， 神 经 网 络 中 神经 元 的 数量 V 不 能 太 大 。 


为 了 防止 神经 网 络 过 拟 合 ， 一 个 常用 的 方法 就 是 使 用 regularization。 之 前 我 们 就 介绍 
过 可 以 在 error function 中 加 入 一 个 regularizer， 例 如 熟悉 的 L2 regularizer Q(w): 


Uw) V (wy 


但 是 ， 使 用 L2 regularizer 有 二 个 缺点 ， 就 是 它 使 每 个 权重 进行 等 比例 缩小 

(shrink) 。 也 就 是 说 大 的 权重 缩小 程度 较 大 ， 小 的 权重 缩小 程度 较 小 。 这 会 带 来 一 
个 问题 ， 就 是 等 比例 缩小 很 难得 到 值 为 零 的 权重 。 而 我 们 恰恰 希望 某 些 权重 wy — 0 
， 即 权重 的 解 是 松散 (sparse) 的 。 因 为 这 样 能 有 效 减少 VC Dimension， 从 而 减 小 模 
型 复杂 度 ， 防 止 过 拟 合 发 生 。 


那么 为 了 得 到 sparse 解 ， 有 什么 方法 呢 ? 我 们 之 前 就 介绍 过 可 以 使 用 L1 regularizer: 
Y. |wij 中 |， 但 是 这 种 做 法 存在 一 个 缺点 ， 就 是 包含 绝对 值 不 容易 微分 。 除 此 之 外 , 
另外 一 种 比较 常用 的 方法 就 是 使 用 weight-elimination regularizer。weight-elimination 
regularizer 类 似 于 L2 regularizer， 只 不 过 是 在 L2 regularizer 上 做 了 尺度 的 缩小 ， 这 样 
能 使 large weight 和 small weight 都 能 得 到 同等 程度 的 缩小 ， 从 而 让 更 多 权重 最 终 为 


Be 


2, weight-elimination regularizer 的 表达 式 如 下 : 


2 





l 
(w)? 
1+ (wl?) 


2 





e ‘shrink’ weights: 
large weight 一 large shrink; small weight 一 small shrink 


e want wid = 0 (sparse) to effectively decrease avc 


* L1 regularizer: > wi. but not differentiable 
e weight-elimination ('scaled' L2) regularizer: 
large weight — median shrink; small weight — median shrink 


除了 weight-elimination regularizer 之 外 ， 还 有 另外 一 个 很 有 效 的 regularization 的 方 
法 ， 就 是 Early Stopping。 简 而 言 之 ， 就 是 神经 网 络 训练 的 次 数 t 不 能 太 多 。 因 为 ，t 太 
大 的 时 候 ， 相 当 于 给 模型 寻找 最 优 值 更 多 的 可 能 性 ， 模 型 更 复杂 ，VC Dimension 增 
大 ， 可 能 会 overfitting。 而 t 不 太 大 时 ， 能 有 效 减少 VC Dimension， 降 低 模型 复杂 度 ， 
从 而 起 到 regularization 的 效果 。 Ein, 和 Bsest 随 训练 次 数 t 的 关系 如 下 图 右 下 角 所 示 : 


out-obsample error 


e GD/SGD (backprop) visits 
more weight combinations 
as t increases 





model complexity 


Errar 


inesample error 


Hy | 
X S di. VC dimension, dve 
[ON (dc in middle, remember? :-)) 


e smaller t effectively 
decrease dvc 

e better ‘stop in middle’: 

early stopping 


log g (error) 
+ 





10° uw 104 
iteration. t 


那么 ， 如 何 选择 最 佳 的 训练 次 数 上 呢 ? 可 以 使 用 validation 进 行 验证 选择 。 
总 结 


本 节 课 主要 介绍 了 Neural Network 模 型 。 首 先 ， 我 们 通过 使 用 一 层 甚 至 多 层 的 

perceptrons 来 获得 更 复杂 的 非 线性 模型 。 神 经 网 络 的 每 个 神经 元 都 相当 于 一 个 Neural 
Network Hypothesis， 训 练 的 本 质 就 是 在 每 一 层 网 络 上 进行 pattern extraction, #2] 
最 合适 的 权重 wty) ， 最 终 得 到 最 佳 的 G。 本 课程 以 regression 模 型 为 例 ， 最 终 的 G 是 线 癌 





性 模型 ， 而 中 间 各 层 均 采用 tanh 函 数 作为 transform function, 计算 权重 ww 的 方法 就 
是 采用 GD 或 者 SGD， 通 过 Backpropagation 算 法 ， 不 断 更 新 优化 权重 值 ， 最 终 使 得 

Ein(w) 最 小 化 ， 即 完成 了 整个 神经 网 络 的 训练 过 程 。 最 后 ， 我 们 提 到 了 神经 网 络 的 
可 以 使 用 一 些 regularization 来 防止 模型 过 拟 合 。 这 些 方法 包括 随机 选择 较 小 的 权重 初 
始 值 ， 使 用 weight-elimination regularizer 或 者 early stopping 等 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 
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VES: 红色 石头 ARE: Al 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 神经 网 络 Neural Network。 神 经 网 络 是 由 一 层 一 层 的 神经 元 构 
成 ， 其 作用 就 是 帮助 提取 原始 数据 中 的 模式 即 特征 ， 简 称 为 pattern feature 
extraction。 神 经 网 络 模 型 的 关键 是 计算 出 每 个 神经 元 的 权重 ， 方 法 就 是 使 用 
Backpropagation 算 法 ， 利 用 GD/SGD， 得 到 每 个 权重 的 最 优 解 。 本 节 课 我 们 将 继续 对 
神经 网 络 进行 深入 研究 ， 并 介绍 层 数 更 多 、 神 经 元 个 数 更 多 、 模 型 更 复杂 的 神经 网 络 
模型 ， 即 深度 学 习 模型 。 


Deep Neural Network 


总 的 来 说 ， 根 据 神经 网 络 模型 的 层 数 、 神 经 元 个 数 : 模型 复杂 度 不 同 ， 大 致 可 分 为 两 
类 : Shallow Neural Networks 和 Deep Neural Networks。 上 节 课 介绍 的 神经 网 络 模型 
层 数 较 少 ， 属 于 Shallow Neural Networks 过 而 本 节 课 将 着 重 介绍 Deep Neural 
Networks。 首 先 ， 比 较 一 下 二 者 之 间 的 优 缺 点 有 哪些 : 


Deep NNet 


e challenging to train (x) 
sophisticated structural 


e more efficient to train (O) 
e simpler structural 


decisions (O) decisions (x) 
e theoretically powerful e ‘arbitrarily’ powerful (O) 
enough (O) e more ‘meaningful’? (see 


next slide) 





A 


值得 一 提 的 是 ， 近 些 年 来 ，deep learning 越 来 越 火 ， 尤 其 在 电脑 视觉 和 语音 识别 等 领 
域 都 有 非常 广泛 的 应 用 。 原 因 在 于 一 层 一 层 的 神经 网 络 有 助 于 提取 图 像 或 者 语音 的 一 
些 物 理 特 征 ， 即 pattern feature extraction， 从 而 帮助 人 们 掌握 这 些 问 题 的 本 质 ， 建 立 
准确 的 模型 。 


下 面 举 个 例子 ， 来 看 一 下 深度 学 习 是 如 何 提取 出 问题 潜在 的 特征 从 而 建立 准确 的 模型 
的 。 如 下 图 所 示 ， 这 是 一 个 手写 识别 的 问题 ， 简 单 地 识别 数字 1 和 数字 5。 





Positive weight 









negative weight 


如 何 进行 准确 的 手写 识别 呢 ” 我 们 可 以 将 写 上 数字 的 图 片 分 解 提取 出 一 块 一 块 不 同 部 
位 的 特征 。 例 如 左边 三 幅 图 每 张 图 代表 了 数字 1 的 某 个 部 位 的 特征 ， 三 幅 图 片 组 合 起 来 
就 是 完整 的 数字 1。 右 边 四 幅 图 也 是 一 样 ， 每 张 图 代表 了 数字 5 的 某 个 部 位 的 特征 , 五 
幅 图 组 合 起 来 就 是 完整 的 数字 5。 对 计算 机 来 说， 图 片 由 许多 像素 点 组 成 。 要 达到 识别 
的 目的 ,每 层 神 经 网 络 从 原始 像素 中 提取 出 更 复杂 的 特征 ， 再 由 这 些 特征 对 图 片 内 容 
进行 匹配 和 识别 。 层 数 越 多 ， 提 取 特 征 的 个 数 和 深度 就 越 大 ， 同 时 解决 复杂 问题 的 能 
量 就 越 强 ， 其 中 每 一 层 都 具有 相应 的 物理 意义 。 以 上 就 是 深度 学 习 的 作用 和 意义 。 
深度 学 习 很 强大 ， 同 时 它 也 面临 很 多 挑战 和 困难 : 

e difficult structural decisions 

e high model complexity 

e hard optimization problem 


。 huge computational complexity 


面 对 以 上 深度 学 习 的 4 个 困难 ， 有 相应 的 技术 和 解决 的 办 法 : 





e difficult structural decisions: 
e subjective with domain knowledge: like convolutional NNet for 
images 
e high model complexity: 
* no big worries if big enough data 
* regularization towards noise-tolerant: like 


* dropout (tolerant when network corrupted) 
* denoising (tolerant when input corrupted) 


e hard optimization problem: 


* careful initialization to avoid bad local minimum: 
called pre-training 


e huge computational complexity (worsen with big data): 
e novel hardware/architecture: like mini-batch with GPU 


其 中 ， 最 关键 的 技术 就 是 regularization 和 initialization。 


深度 学 习 中 ， 权 重 的 初始 化 选择 很 重要 ， 好 的 初始 值 能 够 帮助 避免 出 现 局 部 最 优 解 的 
出 现 。 常 用 的 方法 就 是 pre-train， 即 先 权 重 进行 初始 值 的 选择 ， 选 择 之 后 再 使 用 
backprop 算 法 训练 模型 ， 得 到 最 佳 的 权重 值 。 在 接 下 来 的 部 分 ， 我 们 将 重点 研究 pre- 
training 的 方法 。 


Simple Deep Learning 


Q for / — 1,...,L, prestrain {wi} assuming w/!), ... wl’ fixed 





O train with backprop on pre-trained NNet to fine-tune all {wh 


Autoencoder 


我 们 已 经 介绍 了 深度 学 习 的 架构 ， 那 么 从 算法 模型 上 来 说 ， 如 何 进行 pre-training， 得 





表 了 特征 转换 (feature transform) 。 从 另 一 个 方面 也 可 以 说 ， 权 重 表示 一 种 编码 
(encoding) ， 就 是 把 数据 编码 成 男 外 一 些 数据 来 表示 。 因 为 神经 网 络 是 一 层 一 层 进 
行 的 ， 有 先后 顺序 ， 所 以 就 单一 层 来 看 ， 好 的 权重 初始 值 应 该 是 尽 可 能 地 包含 了 该 层 
输入 数据 的 所 有 特征 ， 即 类 似 于 information-preserving encoding。 也 就 是 说 ， 能 够 把 
第 i 层 的 输入 数据 的 特征 传输 到 第 i+1 层 ， 再 把 第 i+1 层 的 输入 数据 的 特征 传输 到 第 i+2 
层 ， 一 层 一 层 进 行 下 去 。 这 样 ， 每 层 的 权重 初始 值 起 到 了 对 该 层 输入 数据 的 编码 作 
用 ， 能 够 最 大 限度 地 保持 其 特征 。 


举 个 例子 ， 上 一 小 节 我 们 讲 了 简单 的 手写 识别 的 例子 。 从 原始 的 一 张 像素 图 片 转 换 到 
分 解 的 不 同 笔画 特征 ， 那 么 反 过 来 ， 这 几 个 笔画 特征 也 可 以 组 合成 原来 的 数字 。 这 种 
可 逆 的 转换 被 称 为 information-preserving， 即 转换 后 的 特征 保留 了 原 输入 的 特征 ， 而 
且 转 换 是 可 逆 的 。 这 正 是 pre-train 和 希望 做 到 的 ， 通 过 encoding 将 输入 转换 为 一 些 特 
征 ， 而 这 些 特征 又 可 以 复原 原 输入 X， 实 现 information-preserving。 所 以 ，pre-training 
得 到 的 权重 初始 值 就 应 该 满足 这 样 的 information-preserving 特 性 。 


e weights: feature transform, i.e. encoding OOOO 


e good weights: information-preserving encoding 
一 next layer same info. with different representation 
e information-preserving: 
decode accurately after encoding 


OOOO 


Re /NN 
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如 何在 pre-training 中 得 到 这 样 的 权重 初始 值 ( 即 转换 特征 ) 呢 ? 方法 是 建立 一 个 简单 
的 三 层 神 经 网 络 (一 个 输入 层 、 一 个 隐藏 层 、 一 个 输出 层 ) ， 如 下 图 所 示 。 
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该 神经 网 络 中 ， 输 入 层 是 原始 数据 〈 即 待 pre-training 的 数据 ) ， 经 过 权重 Wi 得 到 
隐藏 层 的 输出 为 原始 数据 新 的 表达 方式 ( 即 转换 特征 ) 。 这 些 转换 特征 再 经 过 权重 
W 得 到 输出 层 ， 输 出 层 的 结果 要 求 跟 原始 数据 类 似 ， 即 输入 层 和 输出 层 是 近似 相等 
的 。 整 个 网 络 是 d 一 d — d NNet 结 构 。 其 核心 在 于 “ 重 构 性 “2 从 输入 层 到 隐藏 层 实现 
特征 转换 ， 从 隐藏 层 到 输出 层 实 现 重 构 ， 满 足 上 文 所 训 的 information-preserving 的 特 
性 。 这 种 结构 的 神经 网 络 我 们 称 之 为 autoencoderi 输 入 层 到 隐藏 层 对 应 编码 ， 而 隐藏 
层 到 输出 层 对 应 解码 。 其 中 ， WO RTA, TWP 表示 解码 权重 。 整个 过 程 
类 似 于 在 学 习 如 何 近 似 逼 近 identity function. 


» autoencoder: d—d-—d NNet with goal g;(x) ~ x; 
—learning to approximate identity function 


E wi: encoding weights; wi: decoding weights 


那么 为 什么 要 使 用 这 样 的 结构 来 逼近 identity function ， 有 什么 好 处 呢 ? 首先 对 于 监督 
式 学 习 (supervised learning) ， 这 种 d — d 一 d 的 NNet 结 构 中 含有 隐藏 层 。 隐 藏 层 
的 输出 实际 上 就 是 对 原始 数据 合理 的 特征 转换 p(X)， 例 如 手写 识别 中 隐藏 层 分 解 的 各 
个 笔画 ， 包 含 了 有 用 的 信息 。 这 样 就 可 以 从 数据 中 学 习 得 到 一 些 有 用 的 具有 代表 性 的 
言 息 。 然 后 ， 对 于 非 监督 式 学 习 (unsupervised learning) ，autoencoder 也 可 以 用 来 
做 density estimation。 如 果 网 络 最 终 的 输出 g(x) m zx， 则 表示 密度 较 大 ;如果 g(x) 与 
x 相差 甚 远 ， 则 表示 密度 较 小 。 也 就 是 说 可 以 根据 g(x) 与 x 的 接近 程度 来 估计 测试 数据 
是 落 在 密度 较 大 的 地 方 还 是 密度 较 小 的 地 方 。 这 种 方法 同样 适用 于 outlier detection, 
异常 检测 。 这 样 就 可 以 从 数据 中 学 习 得 到 一 些 上 典型 的 具有 代表 性 的 信息 ， 找 出 哪些 是 
典型 资料 ， 哪 些 不 是 典型 资料 。 所 以 说 ， 通 过 autoencoder 不 断 副 近 identity function, 
对 监督 式 学 习 和 非 监督 式 学 习 都 具有 深刻 的 物理 意义 和 非常 广泛 的 应 用 。 





if g(x) z x using some hidden structures on the observed data xn 
e for supervised learning: 


e hidden structure (essence) of x can be used as reasonable 
transform (x) 


—learning ‘informative’ representation of data 
e for unsupervised learning: 


* density estimation: larger (structure match) when g(X) « x 
* outlier detection: those x where g(x) # x 


—learning ‘typical’ representation of data 


其 实 ， 对 于 autoencoder 来 说 ， 我 们 更 关心 的 是 网 络 中 间 隐 藏 层 ， 即 原始 数据 的 特征 转 
换 以 及 特征 转换 的 编码 权重 7 。 


Basic Autoencoder 一 般 采 用 da 一 d= d 的 NNet 结 构 ， 对 应 的 error function 是 squared 
d 
error, BIX i- (9i (£) — oi)". 


basic autoencoder: 


d—d—d NNet with error function Y^? ,(g;(X) — xj)? 


basic ee 吉 构 上 比较 简单 ， 只 有 三 层 网 络 ， 容 易 训练 和 优化 。 各 层 之 间 的 
神经 元 数量 上 ， 通 常 限定 d. < d, 便于 数据 编码 。 数 据 集 可 表示 为 : 

{(z1,Y1 = 21), (22,92 = 22), ay = a a 可 以 
看 成 是 非 监督 式 学 习 。 一 个 重要 的 限制 条 «t Ww Co we ， 即 编码 权重 与 解码 权 
重 相 同 。 这 起 到 了 regularization 的 作用 ， 但 是 是 会 让 计算 复杂 一 些 ， 


e backprop easily applies; shallow and easy to train 
e usually d < d: compressed representation 


e data: {(X1,y1 = X1). (X2, Yo = X2)... . , (XN, Yn = XN)} 
—often categorized as unsupervised learning technique 


e sometimes constrain wf” = wi as regularization 
一 more sophisticated in calculating gradient 


以 上 就 是 basic autoencoder 的 结 epee ote 深度 学 习 中 ，basic autoencoder 





和 解码 ， 得 到 的 编码 权重 W( 就 可 以 作为 pre-trained 的 比较 不 错 的 初始 化 权重 ， 也 就 
是 作为 深度 学 习 中 层 与 层 之 间 的 初始 化 权重 。 


basic autoencoder in basic deep learning: 
LU taken as shallowly pre-trained weights 


我 们 在 本 节 课 第 一 部 分 就 说 了 深度 学 习 中 非常 重要 的 一 步 就 是 pre-training， 即 权重 初 

始 化 ， 而 autoencoder 可 以 作为 pre-training 的 一 个 合理 方法 。Pre-training 的 整个 过 程 

是 : 首先 ，autoencoder 会 对 深度 学 习 网 络 第 一 层 ( 即 原始 输入 ) 进行 编码 和 解码 ， 得 
到 编码 权重 W( ) ， 作 为 网 络 第 一 层 到 第 二 层 的 的 初始 化 权重 ;然后 再 对 网 络 第 二 层 进 
行 编码 和 解码 ， 得 到 编码 权重 Wy ， 作为 网 络 第 二 层 到 第 三 层 的 初始 化 权重 ， 以 此 类 
推 ， 直 到 深度 学 习 网 络 中 所 有 层 与 层 之 间 都 得 到 初始 化 权重 。 值 得 注意 的 是 ， 对 于 |-1 

层 的 网 络 {zt 站}， autoencoder 中 的 qd 应 与 下 一 层 ( 即 | 层 ) 的 神经 元 个 数 相同 。 


Deep Learning with Autoencoders 


Q for / — 1,...,L, pre-train LU assuming wh”, ... w/^^ fixed 





(b) 
by training basic autoencoder on is with d = d(^ 


O train with backprop on pre-trained NNet to fine-tune all iw? 


当然 ， 除 了 basic autoencoder 之 外 还 有 许多 其 它 表 现 不 错 的 pre-training 方 法 。 这 些 方 
法 大 都 采用 不 同 的 结构 和 正则 化 技巧 来 得 到 不 同 的 fancier autoencoders， 这 里 不 再 


Denoising Autoencoder 


上 一 部 分 ， 我 们 使 用 autoencoder 解 决 了 deep learning 中 pre-training 的 问题 。 接 下 
来 ， 我 们 将 讨论 deep learning 中 有 什么 样 的 regularization 方 式 来 控制 模型 的 复杂 度 








watch out for overfitting, remember? :-) 


由 于 深度 学 习 网 络 中 神经 元 和 权重 的 个 数 非常 多 ， 相 应 的 模型 复杂 度 就 会 很 大 ， 
此 ，regularization 非 常 必 要 。 之 前 我 门 也 介绍 过 一 些 regularization 的 方法 ， 包 括 : 


e structural decisions/constraints 
e weight decay or weight elimination regularizers 


e early stopping 


high model complexity: regularization needed 
* structural decisions/constraints 
» weight decay or weight elimination regularizers 
e early stopping 


下 面 我 们 将 介绍 另外 一 种 regularization 的 方式 ， 它 在 deep learning 和 autoencoder 中 
都 有 很 好 的 效果 。 


首先 我 们 来 复习 一 下 之 前 介绍 的 overfitting 产 生 的 原因 有 哪些 。 如 下 图 所 示 ， 我 们 知道 
overfitting 与 样本 数量 、 噪 声 大 小 都 有 关系 ， 数 据 量 减 少 或 者 noise 增 大 都 会 造成 
overfitting。 如 果 数 据 量 是 固定 的 ， 那 么 noise 的 影响 就 非常 大 ， 此 时 ， 实 现 
regularization 的 一 个 方法 就 是 消除 noise 的 影响 。 











Noise Level, a? 
LJ 


Number of Data Points, N 


data size N | overfit + 
reasons of serious overfitting: noise 个 overfit + 
excessive power +  overfit 个 






去 除 noise 的 一 个 简单 方法 就 是 对 数据 进行 cleaning/pruning 的 操作 。 但 是 ， 这 种 方法 
通常 比较 麻烦 ， 费 时 费力 。 此 处 ， 有 一 种 比较 "疯狂 "的 方法 过 就 是 往 数据 中 添加 一 些 
noise。 注 意 是 添加 noise! 下 面 我 们 来 解释 这 样 做 到 底 有 什么 作用 。 


e direct possibility: data cleaning/pruning, remember? :-) 
e a wild possibility: adding noise to data? 

这 种 做 法 的 idea 来 自 于 如 何 建立 一 个 健壮 (robust) 的 autoencoder。 在 autoencoder 
中 ， 编 码 解码 后 的 输出 g(x) 会 非常 接近 真实 样本 值 x。 此 时 ， 如 果 对 原始 输入 加 入 一 些 
noise， 对 于 健壮 的 autoencoder; 编码 解码 后 的 输出 g(x) 同 样 会 与 真实 样本 值 x 很 接 
近 。 举 个 例子 ， 手 写 识 别 中 ， 通 常情 况 下 ， 写 的 很 规范 的 数字 1 经 过 autoencoder 后 能 
够 复原 为 数字 1。 如 果 原 始 图 片 数 字 1 垂 斜 或 加 入 噪声 ， 经 过 autoencoder 后 应 该 仍然 
能 够 解码 为 数字 1。 这 表明 该 autoencoder 是 robust 的 ， 一 定 程 度 上 起 到 了 抗 噪声 和 
regularization 的 作用 ， 这 正 是 我 们 希望 看 到 的 。 


所 以 ， 这 就 引出 了 denoising autoencoder 的 概念 。denoising autoencoder 不 仅 能 实现 
编码 和 解码 的 功能 ， 还 能 起 到 去 噪声 、 抗 干扰 的 效果 ， 即 输入 一 些 混入 noise 的 数据 ， 
经 过 autoencoder 之 后 能 够 得 到 较 纯 净 的 数据 。 这 样 ，autoencoder 的 样本 集 为 : 


{(%1,y1 = 21), (2, y2 = 22), (EN,YN = TN) 
Bag, = £n + noise， 为 混入 噪声 的 样本 ， 而 zx 为 纯净 样本 。 


autoencoderil| 练 的 目的 就 是 让 % 经 过 编码 解码 后 能 够 复原 为 纯净 的 样本 zx;,。 那 么 ， 
在 deep learning 的 pre-training 中 ， 如 果 使 用 这 种 denoising autoencoder, 不 仅 能 从 红 加 
净 的 样本 中 编 解码 得 到 纯净 的 样本 ， 还 能 从 混入 noise 的 样本 中 编 解码 得 到 纯净 的 样 Ne 





本 。 这 样 得 到 的 权重 初始 值 更 好 ， 因 为 它 具 有 更 好 的 抗 噪声 能 力 ， 即 健壮 性 好 。 实 际 
应 用 中 ，denoising autoencoderdEz$ 有用， 在 训练 过 程 中 ， 输 入 混入 人 工 noise， 输 出 
纯净 信号 ， 让 模型 本 身 具 有 抗 噪声 的 效果 ， 让 模型 健壮 性 更 强 ， 最 关键 的 是 起 到 了 
regularization 的 作用 。 


e idea: robust autoencoder should not only let g(x) = x 
but also allow g(X) « x even when X slightly different from x 


e denoising autoencoder: 


run basic autoencoder with data 


{(X1,¥1 = X1), (Xo. Yo = X2)..... (XN, yu = XN)}, 
where X, = X,+ artificial noise 





—often used instead of basic autoencoder in deep learning 
useful for data/image processing: g(X) a denoised version of x 
e effect: 'constrain/regularize' g towards noise-tolerant denoising 


Principal Component Analysis 


刚刚 我 们 介绍 的 autoencoder 是 非 线 性 的 ,“ ALAR ei PAA T tanh) AR. 
这 部 分 我 们 将 介绍 linear autoencoder, nonlinear autoencoder 通 常 比 较 复 杂 ， 多 应 用 
于 深度 学 习 中 ;而 linear autoencoder 通 常 比较 简单 ， 我 们 熟知 的 主 成 分 分 析 
(Principal Component Analysis, PCA) ， 其 实 跟 linear autoencoder 有 很 大 的 关 
系 。 


对 于 一 个 linear autoencoder， 它 的 第 k 层 输出 不 包含 tanh() 函 数 ， 可 表示 为 : 


Erb, wl Qu 分 别 是 编码 权重 和 解码 权重 。 而 且 ， 有 三 个 限制 条 件 ， 分 别 是 : 


。 移 除 常数 项 zo ， 让 输入 输出 维度 一 致 
。 编码 权重 与 解码 权重 一 致 : $w_{ij}*{(1)}=w_{jk}{(2)}=w_{ij} 
。d<d 





0 d 
linear hypothesis for k-th component hk(x) = Y wyj (>: mx 
j=0 i=1 
consider three special conditions: 
e exclude x5: range of į same as range of k 


e constrain wi) 三 WwW(2) 


ji = Wy: regularization 
—denote W = [w;] of size d x d 


e assume d < d: ensure non-trivial solution 


这 样 ， 编 码 权 重用 W 表 示 ， 维 度 是 d x d ， 解 码 权重 用 WW 了 表示 。x 的 维度 为 d x 1。 则 
linear autoencoder hypothesis 可 经 过 下 式 计算 得 到 |: 


h(x) = WW?z 


其 实 ，linear autoencoder hypothesis 就 应 该 近似 于 原始 输入 x 的 值 ， 即 h(x)=x。 根 据 
这 个 ,我们 可 以 写 出 它 的 error function: 


2 
X, WW "x with d x d matrix W 














1 N 
En(h) = E,(W) = N oz 
n=1 


我 们 的 目的 是 计算 出 i, (h) 最 小 化 时 对 应 的 NW。 根据 线性 代数 知识 ， 首 先进 行 特征 值 


分 解 : 

WWT = vrv? 
BOWW! BYES. VERESEVVT = VTV = 11. TEASE, WE 
上 有 不 超过 d 个 非 零 值 ( 即 为 1) ， 即 对 角 线 零 值 个 数 大 于 等 于 d 一 (d)。 根 据 特征 值 
分 解 的 思想 ， 我 们 可 以 把 x 进行 类 似 分 解 : 

In = VIV?z, 
其 中 ，| 是 单位 矩阵 ， 维 度 为 dxd。 这 样 ， 通 过 特征 值 分 解 我 们 就 把 对 w 的 优化 问题 转 
换 成 对 和 V 的 优化 问题 。 





let's familiarize the problem with linear algebra (be brave! :-)) 


e eigen-decompose WW! = viv! 
* d x d matrix V orthogonal: VV" = V'V = Ig 
e d x d matrix f diagonal with < d non-zero 
E ww! x, = Viv'x, 
e V (x,): change of orthonormal basis (rotate or reflect) 
e [(---): set > d — d components to 0, and scale others 
e V(---): reconstruct by coefficients and basis (back-rotate) 


e Xn = VIV’ xn: rotate and back-rotate cancel out 


首先 ， 我 们 来 优化 工 值 ， 表 达 式 如 下 : 


2 
N 


tse 
min min — X ^ | VIV7x, — VF V7 xs 
v rN ces 
n=1 Xn WWTXA 





要 求 上 式 的 最 小 化 ， 可 以 转化 为 (7 一 工 ) 越 小 越 好 ,> 其 结果 对 角 线 上 和 零 值 越 多 越 好 ， 
即 ! 与 越 接近 越 好 。 因 为 人 的 秩 是 小 于 等 于 4 的, .最 多 有 个 1。 所 以 ， 工 的 最 优 解 是 
其 对 角 线 上 有 da 个 1。 


e back-rotate not affecting length: X 
e minr >> ||(I— [)(some vector)||?: want many 0 within (I — I) 
e optimal diagonal ' with rank < d: 


d diagonal components 1 
other components 0 


! => without loss of gen. | d x | 


+ 


那么 ， 工 的 最 优 解 已 经 得 出 ， 表 达 式 变 成 : 














Nlro o 
; T 
next min > | 0 PET | V" Xa 
n=1 
I—optimal T 


这 里 的 最 小 化 问题 似乎 有 点 复杂 ， 我 们 可 以 做 一 些 转换 ， 把 它 变 成 最 大 化 问题 求 角 


+d 


L 





转换 后 的 表达 式 为 : 


N 
min 
y 
n=1 




















2 
T _ 
0 I, 5 lv s 
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xd = 1 时 ,VT 中 只 有 第 一 行 v 有用， 最 大 化 问题 转化 为 : 
maxy ` viz, zlv subject to viv=1 


引入 拉 格 朗 日 因子 入 ， 表 达 式 的 微分 与 条 件 微分 应 该 是 平行 的 ， 且 由 入 联系 起 来 ， 即 : 


N 
, Ln ce, vU = 
n—1 


IBigtkMECCENBURIUH, (REBAR, VERSIE XARES, TASB 
应 的 特征 值 。 我 们 要 求 的 是 最 大 值 ， 所 以 最 优 解 v 就 是 矩阵 X7T X 最 大 特征 值 对 应 的 特 
征 向 量 。 

Md > 1 时 ， 求 解 方法 是 类 似 的 ， 最 优 解 {07}4 就 是 矩阵 X7 X id 大 的 特征 值 对 应 
的 d 个 特征 向 量 。 


经 过 以 上 分 析 ， 我 们 得 到 了 工 和 V 的 最 优 解 。 这 就 是 linear autoencoder 的 编 解 码 推导 
过 程 。 


* d = 1: only first row v” of V7 matters 
maxv 5^ ,v7x;x] v subject to vv = 1 
* optimal v satisfies Ped XXIV = XV 
一 Using Lagrange multiplier à, remember? :-) 
* optimal v: ‘topmost’ eigenvector of X" X 
* general d: {v} ‘topmost’ eigenvectorS of X" X 
—optimal (w;) = (v; with [7 = 1] } = top eigenvectors 


值得 一 提 的 是 ，linear autoencoder 与 PCA 推 导 过 程 十 分 相似 。 但 有 一 点 不 同 的 是 ,一 
般 情况 下 ，PCA 会 对 原始 数据 x 进行 处 理 ， 即 减 去 其 平均 值 。 这 是 为 了 在 推导 过 程 中 的 
便利 。 这 两 种 算法 的 计算 流程 大 致 如 下 : 





Linear Autoencoder or 


@ let x = 1 Y," Xn, and let xn — x, — X 
© calculate d top eigenvectors w;, Ww. ..., W4 of XTX 
© return feature transform (x) = W(x—x) 


linear autoencoder 与 PCA 也 有 差别 ，PCA 是 基于 统计 学 分 析 得 到 的 。 一 般 我 们 认为 ， 
将 高 维 数据 投影 (REE) 到 低 维 空间 中 ， 应 该 保证 数据 本 身 的 方差 越 大 越 好 ， 而 噪声 
方差 越 小 越 好 ， 而 PCA 正 是 基于 此 原理 推导 的 。linear autoencoder 与 PCA 都 可 以 用 来 
进行 数据 压缩 ， 但 是 PCA 应 用 更 加 广泛 一 些 。 


* linear autoencoder: 
maximize Y (maginitude after projection)? 

* principal component analysis (PCA) fronvstatistics: 
maximize Y (variance after projection) 


e both useful for linear dimension reduction 
though PCA more popular 


以 上 关于 PCA 的 推导 基本 上 是 从 几何 的 角度 ， 而 没有 从 代数 角度 进行 详细 的 数学 扒 
导 。 网 上 关于 PCA 的 资料 很 多 ， 这 里 附 上 一 篇 个 人 觉得 讲解 得 通俗 易 懂 的 PCA 原 理 介 
绍 : PCA 的 数学 原理 。 有 兴趣 的 朋 发 可 以 看 一 看 。 

总 结 


"= 


本 节 课 主要 介绍 了 深度 学 习 (deep learning) 的 数学 模型 ， 也 是 上 节 课 讲 的 神经 网 络 
的 延伸 。 由 于 深度 学 习 网 络 的 复杂 性 ， 其 建 模 优化 是 比较 困难 的 。 通 常 ， 我 们 可 以 从 
pre-training 和 regularization 的 角度 来 解决 这 些 困难 。 首 先 ，autoencoder 可 以 得 到 比 
较 不 错 的 初始 化 权重 ， 起 到 pre-training 的 效果 。 然 后 ，denoising autoencoder 通 过 引 
入 人 工 噪声 ， 训 练 得 到 初始 化 权重 ， 从 而 使 模型 本 身 抗 噪声 能 力 更 强 ， 更 具有 健壮 
性 ， 起 到 了 regularization 的 效果 。 最 后 ， 我 们 介绍 了 linear autoencoder 并 从 几何 角度 
详 述 了 其 推导 过 程 。linear autoencoder 与 PCA 十 分 类 似 ， 都 可 以 用 来 进行 数据 压缩 和 
数据 降 维 处 理 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 
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Function Network 


VES: 红色 石头 ARE: AlI 有 道 (id: redstonewill) 


上 节 课 我 们 主要 介绍 了 Deep Learning 的 概念 。Deep Learing 其 实 是 Neural Networ 的 
延伸 ， 神 经 元 更 多 ， 网 络 结构 更 加 复杂 。 深 度 学 习 网 络 在 训练 的 过 程 中 最 核心 的 问题 
就 是 pre-training 和 regularization。pre-training 中 ， 我 们 使 用 denoising autoencoder 来 
对 初始 化 权重 进行 选择 。denoising autoencoder 与 统计 学 中 经 常用 来 进行 数据 处 理 的 
PCA 算 法 具有 很 大 的 关联 性 。 这 节 课 我 们 将 介绍 Radial Basis Function Network， 把 

之 前 介绍 的 adial Basis Function 和 Neural Network 联 系 起 来 ; 


RBF Network Hypothesis 


之 前 我 们 介绍 过 ， 在 SVM 中 引入 Gaussian'Kernel 就 能 在 无 限 多 维 的 特征 转换 中 得 到 一 
条 “粗壮 "的 分 界线 (或 者 高 维 分 界 平面 、 分 界 超 平面 ) 。 从 结果 来 看 ，Gaussian SVM 
其 实 就 是 将 一 些 Gaussian 函 数 进 行 线性 组 合 ， 而 Gaussian 函 数 的 中 心 就 位 于 Support 

Vectors 上 ， 最 终 得 到 预测 模型 gswm{z )。 


gsw(x) = sign (x anys exp (—7||x 一 Xnll*) + o) 


SV 


Gaussian SVM: find a, to combine Gaussians centered at x; 
achieve large margin in infinite-dimensional space, remember? :-) 


Gaussian kernel 的 另 一 种 叫 法 是 Radial Basis Function(RBF) kernel, BPA 
数 。 这 个 名 字 从 何 而 来 ? 首先 ，radial 表 示 Gaussian 函 数 计 算 结果 只 跟 新 的 点 x 与 中 心 
点 Zn 的 距离 有 关 ， 与 其 它 无 关 。basis function 就 是 指 Gaussian 函 数 ， 最 终 的 算 
gsvm (2) 就 是 由 这 些 basis function 线 性 组 合 而 成 。 


从 另外 一 个 角度 来 看 Gaussian SVM。 首 先 ， 构 造 一 个 函数 gr (2): 


ga (2) = ne lel 





上 了 式 中 ， 指 数 项 表示 新 的 点 x 与 Zn 之 间 的 距离 大 小 。 距 离 越 近 ， 即 权重 越 大 ， 相 当 于 
对 wy 投 的 票数 更 多 ; 而 距离 越 远 ， 权 重 越 小 ， 相 当 于 对 yy 投 的 票数 更 少 。 其 物理 意义 
是 新 的 点 与 zz 的 距离 远近 决定 了 9 (x) 与 yn 的 接近 程度 。 如 果 距 离 越 折 ， 则 wy, 对 

gn (72) 的 权重 影响 越 大 ;如 果 距离 越 远 ， 则 y,, 对 gn (2) 的 权重 影响 越 小 。 那 么 整体 来 
Wi, gsom (XY) 就 由 所 有 的 SV 组 成 的 gy, (x ) 线 性 组 合 而 成 ， 不 同 gn, (x ) 对 应 的 系数 是 Qa 
， 最 后 由 sign 函 数 做 最 后 的 选择 。 这 个 过 程 很 类 型 我 们 之 前 介绍 的 aggregation 中 将 所 
有 较 好 的 hypothesis 线 性 组 合 ， 不 同 的 gn (2) 有 不 同 的 权重 Qn。 我 们 把 gn, (2) 叫 做 
radial hypotheses，Gaussian SVM 就 是 将 所 有 SV 对 应 的 radial hypotheses 进 行 线 性 
组 合 (linear aggregation) 。 


e Gaussian kernel: also called Radial Basis Function (RBF) kernel 
e radial: only depends on distance between x and ‘center’ x, 
e basis function: to be ‘combined’ 


e let gn(X) = ynexp (—7||x — x«lf*): 
Osvu(X) = sign (*7«, angK(X + b) 
—linear aggregation of selected radial hypotheses 





BBA, Radial Basis Function(RBF) Network 其 实 就 是 上 面 Gaussian SVM 概念 的 延 


伸 ， 目 的 就 是 找到 所 有 radial hypotheses 的 linear aggregation， 得 到 更 好 的 网 络 模 
型 。 


之 所 以 叫 作 RBF Network 是 因为 它 的 模型 结构 类 似 于 我 们 之 前 介绍 的 Neural 


Network。 


Neural Network RBF Network 






知 =1 E 
一 全 
二 centers e votes pe 
> 人 9 p 
- = | “oe Gd 
Xg " 


A 


Neural Network 与 RBF Network 在 输出 层 基 本 是 类 似 的 ， 都 是 上 一 层 hypotheses 的 线 
性 组 合 (linear aggregation) 。 但 是 对 于 隐藏 层 的 各 个 神经 元 来 说，Neural Network SRA 
Ao LET 


是 使 用 内 积 (inner-product) 加 上 tanh() 函 数 的 方法 ， 而 RBF Network 是 使 用 距离 





(distance) 加 上 Gaussian 函 数 的 方法 。 总 的 来 说 ，RBF Network 是 Neural Network 
的 一 个 分 支 。 


e hidden layer different: 
(inner-product + tanh) versus (distance + Gaussian) 
* output layer same: just linear aggregation 


至 此 ，RBF Network Hypothesis 以 及 网 络 结构 可 以 写成 如 下 形式 : 


RBF Network 
w= e 


votes ‘output 






h(x) 
M 
= Output (x Bgm RBF(X, ym) 十 


m=1 





key variables: 


centers m; (signed) votes 8m :Se = 
Xg— T | 


上 式 中 ，jm 表 示 每 个 中 心 点 的 位 置 , 隐藏 层 每 个 神经 元 对 应 一 个 中 心 点 ;Pm 表示 每 
个 RBF 的 权重 ， 即 投票 所 占 比 重 。 


对 应 到 Gaussian SVM 上 ,< 上 式 中 的 RBF 就 是 Gaussian 函 数 。 由 于 是 分 类 问题 ， 上 式 
中 的 Output 就 是 sign 函 数 其 中 ，RBF 的 个 数 M 就 等 于 支持 向 量 的 个 数 SV，jwn, 就 代 
表 每 个 SV 的 坐标 xXw, ， 而 Bn 就 是 在 Dual SVM 中 推导 得 到 的 wy 值 。 那 我 们 学 习 的 
目标 就 是 根据 已 知 的 RBF 和 Output， 来 决定 最 好 的 中 心 点 位 置 Jww, 和 权重 系数 Bm。 







gsvw for Gaussian-SVM 
» RBF: Gaussian; Output: sign (binary classification) 
+e M=#SV; Um: SVM SVS Xm; Bm: amym from SVM Dual 








learning: given RBF and Output, 
decide jm and Bm | 


在 之 前 介绍 SVM 的 时 候 ， 我 们 就 讲 过 Mercer 定 理 : 一 个 矩阵 是 KerneI 的 充分 必要 条 件 


=a =| 


是 它 是 对 称 的 且 是 半 正 定 的 ， 条 件 比 较 苛 刻 。 除 了 Gaussian kernelt Polynomial mayan 
Pi ites 





kernel 等 等 。Kernel 实 际 上 描述 了 两 个 向 量 之 间 的 相似 性 ， 通 过 转换 到 z 空 间 计算 内 积 
的 方式 ， 来 表征 二 者 之 间 的 相似 性 。 而 RBF 实际 上 是 直接 使 用 x 空 间 的 距离 来 描述 了 一 
种 相似 性 ， 距 离 越 近 ， 相 似 性 越 高 。 因 此 ，kernel 和 RBF 可 以 看 成 是 两 种 衡量 相似 性 

(similarity) 的 方式 。 本 文 介 绍 的 Gaussian RBF 即 为 二 者 的 交集 。 


kernel: similarity via Z-space inner product 
—governed by Mercer's condition, remember? :-) 
Poly(x, x’) = (1 + x'x/)? 


Gaussian(x, x’) = exp(—^||x — x’ ||?) 


Truncated(X, x’) = [||x — x'|| < 1] (1 — ||x — x'||)? 
RBF: similarity via 七 -space distance 
—often monotonically non-increasing to distance 


除了 kernel 和 RBF 之 外 ， 还 有 其 它 衡量 相似 性 的 函数 。; 例如 神经 网 络 中 的 神经 元 就 是 
衡量 输入 和 权重 之 间 的 相似 性 。 


经 过 以 上 人 分析， 我们 知道 了 RBF Network 中 distance similarity 是 一 个 很 好 的 定义 特征 
转换 的 方法 。 除 此 之 外 ， 我 们 还 可 以 使 用 其 它 相似 性 函数 来 表征 特征 转换 ， 从 而 得 到 
更 好 的 机 器 学 习 模 型 。 


RBF Network Learning 


我 们 已 经 介绍 了 RBF Network 的 Hypothesis 可 表示 为 : 


M 
h(x) = Output (x 8g RBF(x. ^) 


m1 


其 中 jn 表示 中 心 点 的 位 置 。jwm 的 个 数 M 是 人 为 决定 的 ， 如 果 将 每 个 样本 点 zm 都 作 
为 一 个 中 心 点 ， 即 M=N， 则 我 们 把 这 种 结构 称 为 full RBF Network, tmn, XF 
full RBF Network， 每 个 样本 点 都 对 最 终 的 预测 都 有 影响 (uniform influence) ， 影 响 
的 程度 由 距离 滔 数 和 权重 决定。 如果 每 个 样本 点 的 影响 力 都 是 相同 的 ， 设 为 1， 
Bm = 1 ym ， 那 么 相当 于 只 根据 距离 的 远近 进行 投票 。 最 终 将 x 与 所 有 样本 点 的 
RBF 距 离线 性 组 合 ， 经 过 sign 消 数 后 ， 得 到 最 终 的 预测 分 类 结果 。 这 实际 上 就 是 
aggregation 的 过 程 ， 考 虑 并 计 入 所 有 样本 点 的 影响 力 ， 最 后 将 x 与 所 有 样本 点 的 


distance similarity 进 行 线 性 组 合 。 





e full RBF Network: M = N and each pum = Xm 
* physical meaning: each Xm influences similar x by 8m 
* e.g. uniform influence with 85m = 1 - ym for binary classification 


N 
guniform(X) 一 Sign (Zen (^x ES xal?) 
m=1 


一 aggregate each examples opinion subject to similarity 


full RBF Network 的 矩 可 以 表示 为 : 


N 
Sunitomm(X) = sign (Ere (—lix = 22) 


m=1 


我 们 来 看 上 式 中 的 Gaussian 函 数 项 ， 当 x 与 样本 点 Zm 越 接近 的 时 候 ， 其 高 斯 函数 值 越 
大 。 由 于 Gaussian 函 数 曲 线性 质 ， 越 靠近 中 心 点 ， 值 越 大 ; 偏离 中 心 点 ， 其 值 会 下 降 
得 很 快 。 也 就 是 说 ， 在 所 有 NN 个 中 心 样本 点 中 ， 往 往 只 有 距离 x 最 近 的 那个 样本 点 起 到 
关键 作用 ， 而 其 它 距 离 x 较 远 的 样本 点 其 值 很 小 ， 基 本 可 以 忽略 。 因 此 ， 为 了 简化 运 

S, 我 们 可 以 找到 距离 x 最 近 的 中 心 样 本 点 ， 只 用 这 一 个 点 来 代替 所 有 NN 个 点 ， 最 后 得 
AJAI gnor (x) 也 只 由 该 最 近 的 中 心 点 决定 。 这 种 模型 叫做 nearest neighbor model, 
只 考虑 距离 x 最 近 的 那 一 个 “邻居 "。 


当然 可 以 对 nearest neighbor model 进 行 扩展 ， 如 果 不 是 只 选择 一 个 “邻居 "， 而 是 选择 
距离 x 最 近 的 k 个 “邻居 "， 进 行 uniformly aggregation， 得 到 最 终 的 矩 gntor (£). ZIA 
法 通常 叫做 k 近 邻 算 法 (k nearest neighbor) 。 


e exp (—7||X — Xm||*): maximum when x closest to Xm 
—maximum one often dominates the 5^" , term 


e take ym of maximum exp(...) instead of voting of all ym 
—selection instead of aggregation 


e physical meaning: 
Qnbor(X) = ym such that x closest to Xm 
—called nearest neighbor model 
e can uniformly aggregate k neighbors also: k nearest neighbor 





k nearest neighbor 通 常 比 nearest neighbor model 效 果 更 好 ， 计 算 量 上 也 比 full RBF 
Network 要 简单 一 些 。 值 得 一 提 的 是 ，k nearest neighbor 与 full RBF Network 都 是 比 
较 “ 偷 懒 "的 方法 。 因 为 它们 在 训练 模型 的 时 候 比 较 简单 ， 没 有 太 多 的 运算 ， 但 是 在 测 
试 的 时 候 却 要 花费 更 多 的 力气 ， 找 出 最 相近 的 中 心 点 ， 计 算 相对 复杂 一 些 。 


接 下 来 ,我们 来 看 一 下 Full RBF Network 有 什么 样 的 优点 和 好 处 。 考 虑 一 个 squared 
error regression 问 题 ， 且 每 个 RBF 的 权重 为 和 ,而 不 是 前 面 简化 的 yy 。 目 的 是 计算 最 
优化 模型 对 应 的 2 值 。 该 hypothesis 可 表示 为 : 


full RBF Network for squared error regression: 
N 
h(x) = Outgat (Zonere 加 
m=1 


很 明显 ， 这 是 一 个 简单 的 线性 回归 问题 ， 每 个 RBF 都 可 以 看 成 是 特征 转换 。 特 征 转换 
后 的 向 量 浆 可 表示 为 : 


zn = |RBF(a2,,21), RBF(z,,23), ++, RBF (xn, TN )| 
那么 ， 根 据 之 前 线性 回归 介绍 过 的 最 优化 解 公 式 ， 就 能 快速 地 得 到 C 的 最 优 解 为 : 
B= (Z 2) Z" y 
上 述 解 的 条 件 是 矩阵 27 ZS AY, 


和 矩阵 Z 的 大 小 是 NxN， 是 一 个 方 阵 。 而 且 ， 由 于 Z 中 每 个 向 量 软 表示 该 点 与 其 它 所 有 点 
的 RBF distance， 所 以 从 形式 上 来 说 ，Z 也 是 对 称 和 矩阵 。 如 果 所 有 的 样本 点 zn 都 不 一 
样 ， 则 Z 一 定 是 可 逆 的 。 


e just linear regression on RBF-transformed data 
Zn = [RBF(Xn, x1), RBF(Xn, X2). ..., RBF(Xn, X~)] 


e optimal 3? 3 = (Z'Z)-'Z'y, if Z'Z invertible, remember? :-) 


e size of Z? N (examples) by N (centers) 
—symmetric square matrix 
e theoretical fact: if xn all different, Z with Gaussian RBF invertible | 


根据 Z 和 矩阵 的 这 些 性 质 ， 我 们 可 以 对 /的 解 进行 化 简 ， 得 到 : 





Bex 
CARCASS, Lay AG, 1838]: 
grer (21) = f 4 =y Zz =y" [10--- 0 = y 


结果 非常 有 趣 ， 模 型 的 输出 与 原样 本 yi 完全 相同 。 同 样 ， 对 任意 的 z, ， 都 能 得 到 
9RBP(Zn) = Yn. Alt, Ein(grer) = 0。 看 起 来 ， 这 个 模型 非常 完美 了 ， 没 有 
error。 但 是 ， 我 们 之 前 就 记过， 机 器 学 习 中 ， 尼 in = 0 并 非 好 事 ， 很 可 能 造成 模型 复 
杂 度 增加 及 过 拟 合 。 


full Gaussian RBF Network for regression: 3 = Z-'y 
grer(X1) = A'Z: =y Z ‘(first column of Z)=y’[1 0 ... 0] =) 
—9rer(Xn) = Yn, i.&. Ein(grer) = 0, yeah!! :-) ; 

当然 ， 这 种 方法 在 某 些 领域 还 是 很 有 用 的 。 比 如 在 函数 拟 合 (function 


approximation) 中 ,目标 就 是 让 Bi, = 0， 使 得 原 所 有 样本 都 尽 可 能 地 落 在 拟 合 的 六 
数 曲线 上 。 


为 了 避免 发 生 过 拟 合 ， 我 们 可 以 引入 正则 项 A， 得 到 6 的 最 优 解 为 : 
B= (ZTZ c AI) Zy 


e called exact interpolation for function approximation 

e but overfitting for learning? :-( 

e how about regularization? e.g. ridge regression for 3 instead 
—optimal 3 = (Z'Z + AI)-!z'y 

e seen Z? Z = [Gaussian(Xp, Xm)] = Gaussian kernel matrix K 


我 们 再 来 看 一 下 Z 和 矩阵 ，Z 和 矩阵 是 由 一 系列 Gaussian 函 数组 成 ， 每 个 Gaussian 函 数 计 
算 的 是 两 个 样本 之 间 的 distance similarity。 这 里 的 Z 与 之 前 我 们 介绍 的 Gaussian SVM 
中 的 kernel K 是 一 致 的 。 当 时 我 们 得 到 kernel ridgeregression 中 线性 系数 6 的 解 为 : 


B — (K- AI)" y 


比较 一 下 kernel ridgeregression5regularized full RBF Network 的 6 解 ， 形 式 上 相似 但 





多 维 的 特征 转换 做 regularization， 而 在 regularized full RBF Network 中 ， 是 对 有 限 维 
(NEE) 的 特征 转换 做 regularization。 因 此 ， 两 者 的 公式 解 有 细微 差别 。 


effect of regularization in different spaces: 


kernel ridge regression: 3 = (K + A1)! y; 
regularized full RBFNet: 8 = (Z7Z + A1) !z"'y 


除 此 之 外 ， 还 有 另外 一 种 regularization 的 方法 ， 就 是 不 把 所 有 N 个 样本 点 都 拿 来 作 中 
心 点 ， 而 是 只 选择 其 中 的 M 个 样本 点 作为 中 心 点 。 类 似 于 SVM 中 的 SV 一 样 ， 只 选择 具 
有 代表 性 的 M 个 中 心 点 。 这 样 减少 中 心 点 数量 的 同时 也 就 减少 了 权重 的 数量 ， 能 够 起 
到 regularization 的 效果 ， 避 免 发 生 过 拟 合 。 


recall: 


gsww(X) = sign E (—lix =- Xml?) a 


SV 


—only ‘< N' SVs needed in ‘network’ 





e next: M < N instead ofM = N 


e effect: regularization 
by constraining number of centers and voting weights 


e physical meaning of centers pm: prototypes 
下 一 部 分 ， 我 们 将 讨论 如 何 选取 M 个 中 心 点 作为 好 的 代表 。 


k-Means Algorithm 


之 所 以 要 选择 代表 ， 是 因为 如 果 某 些 样本 点 很 接近 ， 那 么 就 可 以 用 一 个 中 心 点 来 代表 
它们 。 这 就 是 聚 类 (cluster) 的 思想 ， 从 所 有 N 个 样本 点 中 选择 少数 几 个 代表 作为 中 


INNO 


if X1 = Xo, 
=> no need both RBF(x, xi) & RBF(x, x2) in RBFNet, 
=> cluster x; and xo by one prototype p ~ x; ~ X2 





BIX (clustering) 问题 是 一 种 典型 的 非 监督 式 学 习 (unsupervised learning) 。 它 的 
优化 问题 有 两 个 变量 需要 确定 : 一 个 是 分 类 的 分 群 值 g9v ， 每 一 类 可 表示 为 
S1,52,°°:,Sui 另外 一 个 是 每 一 类 对 应 的 中 心 点 LU1, 2 , WLM。 那么 对 于 该 聚 
类 问题 的 优化 ， 其 error function 可 使 用 squared error measure 来 衡量 。 


e clustering with prototype: 
e partition {x,,} to disjoint sets S4, S2,- -- , Sy 
e choose jim for each Sm 


—hope: x1. X? both € Sm & Hm% X1 © X2 
e cluster error with squared error measure: 


N M 


En(S1.--- , Sui Ih. ace Ha) 一 [X5 € Sm]llxn -= nal 


n=1 m=1 


那么 ， 我 们 的 目标 就 是 通过 选择 最 合适 的 91, 5S2,: .32MX 和 HA, …… pa, FR 
已 in 最 小 化 。 对 应 的 公式 可 表示 为 : 


with S;.--- , Sy being a partition of 4x,}, 


NM 
min »Y» 村 [Xn € Sm]llxn 一 Am 


{S; M (4 High vam mm 


e hard to optimize: joint combinatorial-numerical optimization 
e two sets of variables: will optimize alternatingly 


A 


从 这 个 最 小 化 公式 ,我 们 能 够 发 现 这 是 一 个 组 合 最 佳 化 的 问题 ， 既 要 优化 分 群 值 5», 

， 又 要 求解 每 一 类 的 中 心 点 wm 。 所 以 ， 这 个 最 小 化 问题 是 比较 复杂 、 难 优化 的 。 通 党 
的 办 法 是 对 S 和 分 别 进行 最 优化 求解 。 

首先 ， 如 果 j1, J42,*…… , LM 是 固定 的 ， 目 标 就 是 只 要 对 所 有 的 zx 进行 分 群 归 类 。 这 
个 求解 过 程 很 简单 ， 因 为 每 个 样本 点 只 能 属于 一 个 群 S， 不 能 同时 属于 两 个 或 多 个 
群 。 所 以 ， 只 要 根据 距离 公式 ， 计 算 选 择 离 z" 最 近 的 中 心 点 K 即 可 。 





if 0 , 4m fixed, for each Xn 
e [xn € Sm]: choose one and only one subset 
* ||Xn 一 Amll2: distance to each prototype 








optimal chosen subset Sm = the one with minimum ||xn — 145]? 


for given p4,- ,Wu, each X; 
‘optimally partitioned’ using its closest pm 





AA, WRS, S2, SM 是 固定 的 ， 目 标 就 是 只 要 找 出 每 个 类 的 中 心 点 ww。 显然 ， 
根据 上 式 中 的 error function， 所 有 的 Zn 分群 是 已 知 的， 那么 该 最 小 化 问题 就 是 一 个 典 
型 的 数值 最 优化 问题 。 对 于 每 个 类 群 S;, ， 利 用 梯度 下 降 算 法 ， 即 可 得 到 jw 的 解 。 


if S;,--- , Sy fixed, just unconstrained optimization for each jm 
N 
V, Ein = -27 [Xn E Sm] (Xn 一 Am) = -2 >. Xn | - |Smliio 
n1 X5€ S5 


optimal prototype 4m = average of Xn within Sm 





for given Si... , Sy, each ji, 
‘optimally computed" as consensus within Sm | 


如 上 图 所 示 ， 中 心 点 jm 就 等 于 所 有 属于 类 群 Sm, 的 平均 位 置 处 。 


经 过 以 上 的 推导 ， 我 们 得 到 了 一 个 非常 有 名 的 一 种 unsupervised learning 算 法 ， 叫 做 
k-Means Algorithm。 这 里 的 k 就 是 代表 上 面 的 M， 表 示 类 群 的 个 数 。 


k-Means Algorithm 的 流程 是 这 样 的 : 首先 ， 随 机 选择 k 个 中 心 点 pa H2; Bk; ES 
后 ， 再 由 确定 的 中 心 点 得 到 不 同 的 类 群 91, 95,.-., 9,; 接着 ， 再 由 确定 的 类 群 计算 
出 新 的 不 同 的 k 个 中 心 点 ; 继续 循环 和 迭 代 计 算 ， 交 互 地 对 /和 S 值 进行 最 优化 计算 ， 不 
断 更 新 儿 和 S 值 ， 直 到 程序 收 傅 ， 实 现 bin 最 小 化 。 具 体 算法 流程 图 如 下 所 示 : 





k-Means Algorithm 


@ initialize pi, 142. ..., Lx: Say, as k randomly chosen x; 
@ alternating optimization of Ej: repeatedly 
© optimize S;, S2. .... Sk: 
each x, ‘optimally partitioned’ using its closest p; 
€) optimize Ha: Boss Hk: 
each p, ‘optimally computed’ as consensus within Sm 
until converge 


有 一 个 问题 是 ，k-Means Algorithm 的 循环 迭代 一 定 会 停止 吗 ? 或 者 说 一 定 能 得 到 最 优 
解 吗 ” 答 案 是 肯定 的 。 因 为 每 次 迭代 更 新 ，A 和 S 值 都 会 比 上 一 次 的 值 更 接近 最 优 解 ， 
EREN Ein BATA. UE BS RAO, PLA, EnA FO, SR 
能 得 到 最 优 解 。 


k-Means Algorithm 已 经 介绍 完毕 。 接 下 来 ， 我 们 把 k-MeansAlgorithm 应 用 到 RBF 
Network 中 去 。 首 先 ， 使 用 k-Means， 得 到 原始 样本 的 k 个 中 心 点 。 原 始 样本 到 k 个 中 心 
点 组 成 了 RBF 特征 转换 更 (z)。 然 后 ， 根 据 上 面 介绍 过 的 线性 模型 ， 由 最 优化 公式 解 计 
算得 到 权重 6 值 。 最 后 ， 将 所 有 的 更 (z) 用 线性 组 合 ， 即 得 到 德 9RBFNPr (Z) 的 表达 
式 。 具 体 的 算法 流程 如 下 所 示 : 


RBF Network Using k-Means 


© run k-Means with k= Mo get {um} 
© construct transform-¢(x) from RBF (say, Gaussian) at jm 


中 (X) = [RBF(x, p), RBF(Xx, ££2),..., RBF(X, pm)] 


© run linear model on {(®(Xn), yn)} to get 3 
o return 9ghsFNET(X) 一 LinearHypothesis (8, 中 (X)) 














值得 一 提 的 是 ， 这 里 我 们 使 用 了 unsupervised learning (k-Means) 与 我 们 上 节 课 介 
绍 的 autoencoder 类 似 ， 同 样 都 是 特征 转换 (feature transform) 的 方法 。 


在 最 优化 求解 过 程 中 ， 参 数 有 k-Means 类 群 个 数 M、Gaussian 函 数 参 数 入 等 。 我 们 可 
以 采用 validation 的 方法 来 选取 最 佳 的 参数 值 。 





e using unsupervised learning (k-Means) to assist feature 
transform—like autoencoder 


e parameters: M (prototypes), RBF (such as y of Gaussian) 





RBF Network: a simple (old-fashioned) model | 


k-means and RBF Network in Action 
下 面 这 部 分 ， 我 们 将 举 几 个 例子 ， 看 一 下 k-Means Algorithm 是 如 何 处 理 分 类 问题 的 。 


第 一 个 例子 ， 平 面 上 有 4 个 类 群 ，k=4。 首 先 ， 我 们 随机 选择 4 个 中 心 点 ， 如 下 图 中 四 
种 颜色 的 方块 所 示 : 


第 一 次 迭代 ， 由 初始 中 心 点 ， 得 到 4 个 类 群 点 的 分 布 : 





第 二 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 
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三 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 





第 四 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 
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4 个 类 群 点 确定 后 ， 再 更 新 4 个 中 心 点 的 位 置 : 
k=4 
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第 五 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 








第 六 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 
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从 上 图 我 们 可 以 看 到 ， 经 过 六 次 和 迭代 计算 后 ， 聚 类 的 效果 已 经 相当 不 错 了 。 从 另外 一 
个 角度 来 说 ，k 值 的 选择 很 重要 ， 下 面 我 们 来 看 看 不 同 的 k 值 对 应 什么 样 的 分 类 效果 。 








如 上 图 所 示 ， 初 始 时 ， 我 们 分 别 设 定 k 为 2，4，7， 随 机 选择 中 心 点 位 置 。 在 经 过 多 次 
迭代 后 ， 得 到 的 聚 类 结果 如 下 : 





通过 上 面 这 个 例子 可 以 得 出 ， 不 同 的 k 值 会 得 到 不 同 的 聚 类 效果 。 还 有 一 点 值得 注意 的 
是 ,初始 中 心 点 位 置 也 可 能 会 影响 最 终 的 聚 类 。 例 如 上 图 中 k=7 的 例子 ， 初 始 值 选取 

的 右边 三 个 中 心 点 比较 靠近 ， 最 后 得 到 的 右边 三 个 聚 类 中 心 点 位 置 也 跟 初 始 位 置 比较 
相近 。 所 以 ，k 值 大 小 和 初始 中 心 点 位 置 都 会 影响 聚 类 效果 。 


接 下 来 ,我 们 把 k-Means 应 用 到 RBF Network 中 ， 同 样 分 别 设 定 k 为 2，4，7， 不 同 模 
型 得 到 的 分 类 效果 如 下 : 








很 明显 ，k=2 时 ， 分 类 效果 不 是 太 好 ; k=4 时 ， 分 类 效果 好 一 些 ; 而 k=7 时 ， 分 类 效果 
更 好 ， 能 够 更 细致 地 将 样本 准确 分 类 。 这 说 明了 k-Means 中 k 值 设置 得 是 否 合理 ， 对 
RBF Network 的 分 类 效果 起 到 重要 的 作用 。 


再 来 看 一 个 例子 ， 如 果 使 用 full RBF Network 进 行 分 类 ， 即 k=N， 如 下 图 左边 所 示 ， 设 
置 正 则 化 因子 入 = 0.001。 下 图 右边 表示 只 考虑 full RBF-Network 中 的 nearest 
neighbor。 下 图 中 间 表 示 的 是 k=4 的 RBF Network 的 分 类 效果 。 





从 上 图 的 比较 中 ， 我 们 可 以 发 现 full RBF Network 得 到 的 分 类 线 比较 弯曲 复杂 。 由 于 
full RBF Network 的 计算 量 比较 大 ， 所 以 一 般 情 况 下 ， 实 际 应 用 得 不 太 多 。 
[个 
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本 节 课 主要 介绍 了 Radial Basis Function Network, RBF Network Hypothesis 就 是 计 

算 样本 之 间 distance similarity 的 Gaussian 函 数 ， 这 类 原型 替代 了 神经 网 络 中 的 神经 

元 。RBF Network 的 训练 学 习 过 程 ， 其 实 就 是 对 所 有 的 原型 Hypotheses 进 行 linear 

aggregation。 然 后 ， 我 们 介绍 了 一 个 确定 k 个 中 心 点 的 unsupervised learning 算 法 ， 

叫做 k-Means Algorithm。 这 是 一 种 典型 的 聚 类 算法 ， 实 现 对 原始 样本 数据 的 聚 类 分 run 
TI ac 





到 更 好 的 分 类 模型 。 最 后 ， 我 们 列举 了 几 个 在 实际 中 使 用 k-Means 和 RBF Network 的 
例子 ， 结 果 显 示 不 同 的 类 群 k 值 对 分 类 的 效果 影响 很 大 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技法 》 课 程 
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Factorization 
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上 节 课 我 们 主要 介绍 了 Radial Basis Function Network。 它 的 原理 就 是 基于 距离 相似 
ME (distance-based similarities) 的 线性 组 合 (linear aggregation) 。 我 们 使 用 k- 
Means clustering 算 法 找 出 具有 代表 性 的 k 个 中 心 点 ， 然 后 再 计算 与 这 些 中 心 点 的 
distance similarity， 最 后 应 用 到 RBF Network 中 去 。 


LinearNetwork Hypothesis 


回顾 一 下 ， 我 们 在 机 器 学 习 基 石 课 程 的 第 一 节 课 就 提 到 过 ， 机 器 学 习 的 目的 就 是 让 机 
器 从 数据 data 中 学 习 到 某 种 能 力 skill。 我 们 之 前 举 过 一 个 典型 的 推荐 系统 的 例子 。 就 
是 说 ,假如 我 们 手 上 有 许多 不 同 用 户 对 不 同 电影 的 排名 rank， 通 过 机 器 学 习 ， 训 | 练 一 
个 模型 ， 能 够 对 用 户 没有 看 过 的 某 部 电影 进行 排名 预测 。 


data skill | 


ld El 


e data: how ‘many users’ have rated ‘some movies’ 

e skill: predict how a user would rate an unrated movie 
一 个 典型 的 电影 推荐 系统 的 例子 是 2006 年 Netflix 举 办 的 一 次 比赛 。 数 据 包 含 了 480189 
个 用 户 和 17770 部 电影 ， 总 共 1 亿 多 个 排名 信息 。 该 推荐 系统 模型 中 ， 我 们 用 


En 二 (nn) 表示 第 n 个 用 户 ， 这 是 一 个 抽象 的 特征 ， 常 常 使 用 数字 编号 来 代 蔡 具体 哪个 
用 户 。 输 出 方面 ， 我 们 使 用 yj = Tnm 表示 第 n 个 用 户 对 第 m 部 电影 的 排名 数值 。 











A Hot Problem 


* competition held by Netflix in 2006 
* 100,480,507 ratings that 480,189 users gave to 17,770 movies 
* 10% improvement = 1 million dollar prize 


e data D,, for m-th movie: 
{(Xn = (n), ya = rom): user n rated movie m) 
—abstract feature x, = (n) 


下 面 我 们 来 进一步 看 看 这 些 抽象 的 特征 ，¥”, = (有 ) 是 用 户 的 ID， 通 常用 数字 表示 。 
例如 1126,5566,6211 等 。 这 些 编号 并 没有 数值 大 小 上 的 意义 ， 只 是 一 种 ID 标 识 而 已 。 
这 类 特征 被 称 为 类 别 特征 (categorical features) 。 常 见 的 categorical features 包 括 : 
IDs，blood type，programming languages 等 等 。 而 许多 机 器 学 习 模 型 中 使 用 的 大 部 
分 都 是 数值 特征 (numerical features) 。 例 如 linear models，NNet 模 型 等 。 但 决策 树 
(decision tree) 是 个 例外 ， 它 可 以 使 用 categorical features。 所 以 说 ， 如 果 要 建立 一 
个 类 似 推荐 系统 的 机 器 学 习 模型 ， 就 要 把 用 户 ID 这 种 categorical features 转 换 为 
numerical features。 这 种 特征 转换 其 实 就 是 训练 模型 之 前 一 个 编码 (encoding) 的 过 


程 。 


e categorical features, e.g. 

e IDs 

* blood type: A, B, AB, O 

e programming languages: C, C++, Java, Python, ... 
e many ML models operate on numerical features 


e linear models 
e extended linear models such as NNet 


—except for decision trees 
e need: encoding (transform) from categorical to numerical 


A 


一 种 最 简单 的 encoding 方 式 就 是 binary vector encoding。 也 就 是 说 ， 如 果 输 入 样本 有 
N 个 ， 就 构造 一 个 维度 为 N 的 向 量 。 第 n 个 样本 对 应 向 量 上 第 n 个 元 素 为 1， 其 它 元 素 都 
是 0。 下 图 就 是 一 个 binary vector encoding 的 例子 。 


binary vector encoding: 


A=[(1000]’,B=(0100]’, 
AB = [00 1 0], o = [00 O 1]7 





经 过 encoding 之 后 ， 输 入 Zn" 是 N 维 的 binary vector， 表 示 第 n 个 用 户 。 输 出 是 M 维 的 
向 量 ， 表 示 该 用 户 对 M 部 电影 的 排名 数值 大 小 。 注 意 ， 用 户 不 一 定 对 所 有 M 部 电影 都 
作 过 评价 ， 未 评价 的 恰恰 是 我 们 要 预测 的 〈 下 图 中 问号 ”表示 未 评价 的 电影 


encoded data D,, for m-th movie: 


[os = BinaryVectorEncoding(n), yn = mm): user n rated movie m} 
or, joint data D 


{ (Xn = BinaryVectorEncoding(n), Yn = [rs ? ? rpm rms ... mwl7)} 


总 共有 NN 个 用 户 ，M 部 电影 。 对 于 这 样 的 数据 ， 我 们 需要 掌握 每 个 用 户 对 不 同 电影 的 喜 
爱 程 度 及 排名 。 这 其 实 就 是 一 个 特征 提取 (feature extraction) 的 过 程 ， 提 取出 每 个 

用 户 喜 爱 的 电影 风格 及 每 部 电影 属于 哪 种 风格 ， 从 而 建立 这 样 的 推荐 系统 模型 。 可 供 
选择 使 用 的 方法 和 模型 很 多 ， 这 里 ， 我 们 使 用 的 是 NNet 模 型 。NNet 模 型 中 的 网 络 结构 
是 N -d 一 M 型 ,其 中 N 是 输入 层 样本 个 数 ，d 是 隐藏 层 神经 元 个 数 ，M 是 输出 层 电 
影 个 数 。 该 NNet 为 了 简化 计算 ,忽略 了 常数 项 。 当 然 可 以 选择 加 上 常数 项 ， 得 到 较 复 
杂 一 些 的 模型 。 顺 便 提 一 下 ， 这 个 结构 跟 我 们 之 前 介绍 的 autoencoder 非 常 类 似 ， 都 是 
只 有 一 个 隐藏 层 。 


idea: try feature extraction using N-d-M NNet 


*— im - (2) 
= ~- Sy = 
P= ce EN. Wim - 多 y 
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说 到 这 里 ， 有 一 个 问题 ， 就 是 上 图 NNet 中 隐藏 层 的 tanh 函 数 是 否 一 定 需 要 呢 ? 答案 是 
不 需要 。 因 为 输入 向 量 x 是 经 过 encoding 得 到 的 ， 其 中 大 部 分 元 素 为 0， 只 有 一 个 元 素 
为 1。 那 么 ， 只 有 一 个 元 素 Zn 与 相应 权重 的 乘积 进入 到 隐藏 层 。 由 于 Zn =1, BI 
于 只 有 一 个 权重 值 进入 到 tanh 函 数 进行 运算 。 从 效果 上 来 说 ，tanh(x) 与 x 是 无 差别 的 ， 
只 是 单纯 经 过 一 个 函数 的 计算 ， 并 不 影响 最 终 的 结果 ， 修 改 权重 值 即 可 得 到 同样 的 效 
果 。 因 此 ， 我 们 把 隐藏 层 的 tanh 函 数 著 换 成 一 个 线性 函数 y=x， 得 到 下 图 所 示 的 结构 。 





ee ~ 
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{ (Xn = BinaryVectorEncoding(n), Yn = [rm ? ?ma ros ... mwl7)} 


由 于 中 间 隐 藏 层 的 转换 函数 是 线性 的 ， 我 们 把 这 种 结构 称 为 Linear Network 2 
autoencoder 比 较 相似 ) 。 看 一 下 上 图 这 个 网 络 结构 ， ie I 隐藏 层 的 权重 WA(1 维 
度 是 Nxd ， 用 向 量 V7 了 表示。 隐藏 层 到 输出 层 的 权重 W.(2 维度 是 dxM,， NENW 
T. PREAB HRS, Linear Network 的 hypothesis 可 表示 为 : 


h(x) = W? V2 


如 果 是 单个 用 户 x7, ， 由 于 X 向 量 中 只 有 元 素 z" 为 1， 其 它 均 为 0， 则 对 应 矩阵 V 只 有 第 
n 列 向 量 是 有 效 的 ， 其 输出 hypothesis 为 : 


h(zn) = Ww, 


e rename: V! for Du and W for [wa 
e hypothesis: h(x) WIVx 
e per-user output: h(x,,) = W’ Vn, where vn is n-th column of V 


Basic Matrix Factorization 


刚 网 | 我 们 已 经 介绍 了 linear network 的 模型 和 hypothesis。 其 中 Vx 可 以 看 作 是 对 用 户 x 
的 一 种 特征 转换 加 (x)。 对 于 单 部 电影 ， 其 预测 的 排名 可 表示 为 : 


hm(x) = wi, (x) 





linear network: 
h(x) = W? vx 
~~ 
(x) 
—for m-th movie, just linear model hn(x) = w(x) 
subject to shared transform 中 


推导 完 linear network 模 型 之 后 ， 对 于 每 组 样本 数据 ( 即 第 n 个 用 户 第 m 部 电影 ) , R 
们 希望 预测 的 排名 wv 与 实际 样本 排名 y, 尽 可 能 接近 。 所 有 样本 综合 起 来 ， 我 们 使 
用 squared error measure 的 方式 来 定义 瓦 ， Ej ERA EA RB: 


e for every Dm, want rnm = yn ^: Wh, 
* Ej, over all Dm with squared error measure: 


En({wm}, {Vn}) = DA fnm — win) ? 


user n rated movie m 


上 了 式 中 ， 灰 色 的 部 分 是 常数 ， 并 不 影响 最 小 化 求解 ， 所 以 可 以 忽略 。 接 下 来 ， 我 们 就 
要 求 出 Bin 最 小 化 时 对 应 的 V 和 W 解 。 


我 们 的 目标 是 让 真实 排名 与 预测 排名 尽 可 能 一 致 ， 即 7 e whe, — vLw,,. WX 
种 近似 关系 写成 矩阵 的 形式 : RR 汪 YT 人 凡 。 和 矩阵 R 表 示 所 有 不 同 用 户 不 同 电影 的 排名 
情况 ， 维 度 是 NxM。 这 种 用 德 阵 的 方式 进行 处 理 的 方法 叫做 Matrix Factorization, 


fam © WN, = VIWm e R z VIW 


R movie, | movie | --- | movies, 
? ELI 

9 ~ |W 
EC 





上 面 的 表格 说 明了 我 们 希望 将 实际 排名 情况 R 分 解 成 两 个 矩阵 (VIW) 的 乘积 形式 。 
V 的 维度 是 dxN 的 ，N 是 用 户 个 数 ，d 可 以 是 影片 类 型 ,例如 (BRI, SIH, Bee 
片 ， 动 作 片 ，.…) 。 根 据 用 户 喜欢 的 类 型 不 同 ， 赋 予 不 同 的 权重 。W 的 维度 是 qd xM, 

M 是 电影 数目 ，d 同样 是 影片 类 型 ， 该 部 电影 属于 哪 一 类 型 就 在 那个 类 型 上 占 比 较 大 


年 代 等 等 。 








Matrix Factorization Model 






NS o Fd ce 
rue P d learning: 
SF + E NF * 
Pur " d known rating 
views [el@le|  ------ Jel — learned factors Vn and Wm 
Mach me and —: — unknown rating prediction 
movie imi ; 
similar modeling can be used for 
A 4 other abstract features 
N ! "s Se, 


HBA, Matrix FactorizationhiBinttiZm MAE ERE. Ein 表达 式 如 下 所 示 : 


min En({Wmb fo) x — Y. wh) 


user n rated movie m 


= x| be (10-2) 


mz£1 X (Xn.fnm)€ Dm 


Bi 中 包含 了 两 组 待 优化 的 参数 ,分 别 是 和 wm,。 我 们 可 以 借鉴 上 节 课 中 k-Means 
的 做 法 ， 将 其 中 第 一 个 参数 固定 ， 优 化 第 二 个 参数 ， 然 后 再 固定 第 二 个 参数 ， 优 化 第 
一 个 参数 ， 一 步 一 步 进行 优化 。 


Xu 固定 的 时 候 ， 只 需要 对 每 部 电影 做 linear regression 即 可 ， 优 化 得 到 每 部 电影 的 d 


当 w 固 定 的 时 候 ， 因 为 V 和 W 结 构 上 是 对 称 的 ， 同 样 只 需要 对 每 个 用 户 做 linear 
regression 即 可 ， 优 化 得 到 每 个 用 户 对 d 维 电 影 特征 的 喜爱 程度 v,,。 


e two sets of variables: 
can consider alternating minimization, remember? :-) 
e when v, fixed, minimizing Wm = minimize Ein within Dm 
—simply per-movie (per-D,,) linear regression 
e when wm fixed, minimizing vn? 
—per-user linear regression 





这 种 算法 叫做 alternating least squares algorithm。 它 的 处 理 思想 与 kK-Means 算 法 相 
同 ， 其 算法 流程 图 如 下 所 示 : 


Alternating Least Squares 


@ initialize d dimension vectors {Wm}, {Vn} 
@ alternating optimization of Ein: repeatedly 
© optimize w;, wo... ., Wy: 
update wm by m-th-movie linear regression on ((v,. mm)} 
O optimize v,. v». .... Vw: 
update vn by n-th-user linear regression on ((W;. /nm)} 


until converge 


alternating least squares algorithm 有 两 点 需要 注意 。 第 一 是 initialize 问 题 ， 通 常会 随 
机 选取 wv 和 ww,。 第 二 是 converge 问 题 ， 由 于 每 次 迭代 更 新 都 能 减 小 记 ;, ，Bin, 会 趋 
向 于 0， 则 保证 了 算法 的 收敛 性 。 


e initialize: usually just randomly 


e converge: 
guaranteed as Ein decreases during alternating minimization 


在 上 面 的 分 析 中 ， 我 们 提 过 Matrix FactorizationSLinear Autoencoder 的 相似 性 ， 下 图 
列 出 了 二 者 之 间 的 比较 。 









Matrix Factorization 
RzV^w 


Linear Autoencoder 
X ~ W (WTX) 






e motivation: H motivation: 
special d-d-d linear NNet N-d-M linear NNet 
e error measure: e error measure: 


squared on known mm 
solution: local optimal via 
alternating least squares 
usefulness: extract 

hidden user/movie features | 


squared on all Xp; 

solution: global optimal at 
eigenvectors of X7X 
usefulness: extract 
dimension-reduced features 


Matrix Factorization 与 Linear Autoencoder 有 很 强 的 相似 性 ， 都 可 以 从 原始 资料 汇 忌 打 回 回 
取 有 用 的 特征 。 其 实 ，linear autoencoder 可 以 看 成 是 matrix factorization 的 一 种 特殊 ecd x : 





形式 。 


Stochastic Gradient Descent 


我 们 刚刚 介绍 了 alternating least squares algorithm 来 解决 Matrix Factorization 的 问 
题 。 这 部 分 我 们 将 讨论 使 用 Stochastic Gradient Descent 方 法 来 进行 求解 。 之 前 的 
alternating least squares algorithm 中 ， 我 们 考虑 了 所 有 用 户 、 所 有 电影 。 现 在 使 用 
SGD， 随 机 选取 一 笔 资 料 ， 然 后 只 在 与 这 笔 资 料 有 关 的 error function 上 使 用 梯度 下 降 
算法 。 使 用 SGD 的 好 处 是 每 次 迭代 只 要 处 理 一 笔 资料 ， 效 率 很 高 ， 而 且 程 序 简单 ， 容 
易 实现 ; 最 后 ， 很 容易 扩展 到 其 它 的 error function 来 实现 。 


2 
Ein({Wm}, {Vn}) x 2 (mm = win) 
user n rated movie m 
err(user n¢ movie m, rating fam) 


^ ^ —— — zd 








SGD: randomly pick one example within the 5 * & 
update with gradient to per-example err, remember? :-) 


e ‘efficient’ per iteration 
e simple to implement 
e easily extends to other err 


对 于 每 笔 资 料 ， 它 的 errorfunction 可 表示 为 : 


err(user n, movie m, rating mm) = (mm 一 whvn) 2 
上 式 中 的 err 是 squared error function ， 仅 与 第 n 个 用 户 w, ， 第 m 部 电影 wm 有关 。 其 对 
Un 和 ?wm 的 偏 微分 结果 为 : 
Vv, = 一 2(rnm — WE Un )Wm 


Vg, = —2(ram — Wi, Un Wn 





Vvwi  err(user n, movie m, rating fm) = 0 unless n = 1126 
Vw,,,  err(user n, movie m, rating mm) = 0 unless m = 6211 


Vv, err(user n, movie m,rating mm) = 一 2 (mm 一 whvn) Wm 


Vw 


E err(user n, movie m,rating mm) = 一 2 (fnm 一 whvn) Vn 

很 明显 ，Ywv 和 Vw 都 由 两 项 乘积 构成 。 (忽略 常数 因子 2) 。 第 一 项 都 是 

Tam 一 Whvn， 即 余数 residual。 我 们 在 之 前 介绍 的 GBDT 算 法 中 也 介绍 过 余数 这 个 
概念 。Vwv 的 第 二 项 是 wj,， 而 Ywn, 的 第 二 项 是 vj,。 二 者 在 结构 上 是 对 称 的 。 


计算 完 任意 一 个 样本 点 的 SGD 后 ， 就 可 以 构建 Matrix Factorization 的 算法 流程 。SGD 
for Matrix Factorization 的 算法 流程 如 下 所 示 : 


SGD for Matrix Factorization 


initialize d dimension vectors {Wm}, {Vn} randomly 
brio ll... 

© randomly pick (n, m) within all known mm 

© calculate residual Fam = (ro; — W7,v;) 

© SGD-update: 


o" 《一 vor + 7) » FL. uo 


WEM c wp. ravi" 


在 实际 应 用 中 ， 由 于 SGD 算 法 简单 高 效 ，Matrix Factorization 大 多 采用 这 种 算法 。 


介绍 完 SGD for Matrix Factorization 之 后 ， 我 们 来 看 一 个 实际 的 应 用 例子 。 问 题 大 致 
是 这 样 的 : 根据 现在 有 的 样本 资料 ， 预 测 未 来 的 趋势 和 结果 。 显 然 ， 这 是 一 个 与 时 间 
先后 有 关 的 预测 模型 。 比 如 说 一 个 用 户 三 年 前 喜欢 的 电影 可 能 现在 就 不 喜欢 了 。 所 以 
在 使 用 SGD 选 取样 本 点 的 时 候 有 一 个 技巧 ， 就 是 最 后 T 次 和 迭代， 尽量 选择 时 间 上 靠 后 
的 样本 放 入 到 SGD 算 法 中 。 这 样 最 后 的 模型 受 这 些 时 间 上 靠 后 的 样本 点 影响 比较 大 ， 
也 相对 来 说 比较 准确 ， 对 未 来 的 预测 会 比较 准 。 








KDDCup 2011 Track 1: World Champion Solution by NTU 


e specialty of data (application need): 
per-user training ratings earlier than test ratings in time 
e training/test mismatch: typical sampling bias, remember? :-) 





e want: emphasize latter examples 


e last 7’ iterations of SGD: only those 7' examples considered 
—learned {wm}, {Vn} favoring those 


* our idea: time-deterministic RGD that visits latter examples last 
—consistent improvements of test performance 


所 以 ， 在 实际 应 用 中 ， 我 们 除了 使 用 常规 的 机 器 学 习 算 法 外 ， 还 需要 根据 样本 数据 和 
问题 的 实际 情况 来 修改 我 们 的 算法 ， 让 模型 更 加 切合 实际 ， 更 加 准确 。 我 们 要 学 会 灵 
活 运 用 各 种 机 器 学 习 算 法 ， 而 不 能 只 是 照搬 。 


Summary of Extraction Models 


从 第 12 节 课 开 始 到 现在 ， 我 们 总 共用 了 四 节 课 的 时 间 来 介绍 Extraction Models, RA 
我 们 没有 给 出 Extraction Models AAEM, 但 是 它 主 要 的 功能 就 是 特征 提取 和 特征 
转换 ， 将 原始 数据 更 好 地 用 隐藏 层 的 一 些 节 点 表征 出 来 ， 最 后 使 用 线性 模型 将 所 有 节 
点 aggregation。 这 种 方法 使 我 们 能 够 更 清晰 地 抓 住 数据 的 本 质 ， 从 而 建立 最 佳 的 机 器 


学 习 模型 。 


下 图 所 示 的 就 是 我 们 介绍 过 的 所 有 Extraction Models， 除 了 这 四 节 课 讲 的 内 容 之 外 ， 
还 包括 之 前 介绍 的 Adaptive/Gradient Boosting 模 型 。 因 为 之 前 笔记 中 都 详细 介绍 过 ， 
这 里 就 不 再 一 一 总 结 了 。 





Adaptive/Gradient Boosting 
hypotheses gr; weights o; 





Neural Network/ RBF Network Matrix Factorization 
Deep Learning 












£j. 
wi 


weights wit) 





user features Vn; 
movie features Wm 


RBF centers Hm; 
weights 5m 


weights 








k Nearest Neighbor 
x5-neighbor RBF; 
weights yn 


除了 各 种 Extraction Models 之 外 ， 我 们 这 四 节 课 还 介绍 了 不 同 的 Extraction 
Techniques。 下 图 所 示 的 是 对 应 于 不 同 的 Extraction Models 的 Extraction 
Techniques, 


Adaptive/Gradient Boosting 
functional gradient descent 


Neural Network/ RBF Network Matrix Factorization 






Deep Learning 
SGD (backprop) 





SGD 
alternating leastSQR 









k-means clustering 


k Nearest Neighbor 
lazy learning :-) 


最 后 ， 总 结 一 下 这 些 Extraction Models 有 什么 样 的 优点 和 缺点 。 从 优点 上 来 说 : 


。 easy: 机 器 自己 完成 特征 提取 ， 减 少 人 类 工作 量 
。 powerful: 能 够 处 理 非常 复杂 的 问题 和 特征 提取 
另 一 方面 ， 从 缺点 上 来 说 : 


e hard: 通常 遇 到 non-convex 的 优化 问题 ， 求 解 较 困难 ， 容 易 得 到 局 部 最 优 解 而 
非 全 局 最 优 解 
。 overfitting: 模型 复杂 ， 容 易 造 成 过 拟 合 ， 需 要 进行 正则 化 处 理 


autoencoder 









所 以 说 ，Extraction Models 是 一 个 非常 强大 的 机 器 学 习 工 具 ， 但 是 使 用 的 时 候 也 要 小 
心 处 理 各 种 可 能 存在 的 问题 。 


Neural Network/ RBF Network Matrix Factorization 


Deep Learning 


















e ‘hard’: 
non-convex optimization 
problems in general 

e overfitting: 

needs proper 

regularization/validation 


e ‘easy’: 
reduces human burden in 
designing features 

e powerful: 

if enough hidden variables 

considered 


be careful when applying extraction models | 
总 结 


本 节 课 主要 介绍 了 Matrix Factorization。 从 电影 推荐 系统 模型 出 发 ， 首 先 ， 我 们 介绍 
了 Linear Network。 它 从 用 户 ID 编 码 后 的 向 量 中 提取 出 有 用 的 特征 ， 这 是 典型 的 
feature extraction。 然 后 ， 我 们 介绍 了 基本 的 Matrix Factorization 算 法 ， 即 alternating 
least squares， 不 断 地 在 用 户 和 电影 之 间 交 互 地 做 linear regression 进 行 优 化 。 为 了 简 
化 计算 ,提高 运算 速度 ; 也 可 以 使 用 SGD 来 实现 。 事 实证 明 ，SGD 更 加 高 效 和 简单 。 
同时 ， 我 们 可 以 根据 具体 的 问题 和 需求 ， 对 固有 算法 进行 一 些 简 单 的 调整 ， 来 获得 更 
好 的 效果 。 最 后 ， 我 们 对 已 经 介绍 的 所 有 Extraction Models 做 个 简单 的 总 结 。 
Extraction Models 在 实际 应 用 中 是 个 非常 强大 的 工具 ， 但 是 也 要 避免 出 现 过 拟 合 等 问 
题 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《机 器 学 习 技 法 》 课 程 
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上 节 课 我 们 主要 介绍 了 Matrix Factorization。 通 过 电影 推荐 系统 的 例子 ， 介 绍 Matrix 
Factorization 其 实 是 一 个 提取 用 户 特 征 ， 关 于 电影 的 线性 模型 。 反 过 来 也 可 以 看 出 是 
关于 用 户 的 线性 模型 。 然 后 ， 我 们 使 用 SGD 对 模型 进行 最 佳 化 。 本 节 课 我 们 将 对 机 器 
学 习 技 法 课程 介绍 过 的 所 有 内 容 做 个 总 结 ， 分 成 三 个 部 分 : Feature Exploitation 


Techniques, Error Optimization Techniques 和 Overfitting Elimination Techniques, 


Feature Exploitation Techniques 


我 们 在 本 系列 课程 中 介绍 的 第 一 个 特征 提取 的 方法 就 是 kernel。Kernel 运 算 将 特征 转 
换 和 计算 内 积 这 两 个 步骤 合 二 为 一 ， 提 高 了 计算 效率 。 我 们 介绍 过 的 kernel 有 : 
Polynormial Kernel、Gaussian Kernel、Stump Kernel 等 。 另 外 ， 我 们 可 以 将 不 同 的 
kernels 相 加 (transform union) 或 者 相 乘 transform combination) ， 得 到 不 同 的 
kernels 的 结合 形式 ， 让 模型 更 加 复杂 六 值得 一 提 的 是 ， 要 成 为 kernel|， 必 须 满足 
Mercer Condition。 不 同 的 kernel 可 以 搭配 不 同 的 kernel 模 型 ， 比 如 : SVM、SVR 和 
probabilistic SVM 等 ， 还 包括 一 些 不 太 常 用 的 模型 : kernel ridge regression, kernel 
logistic regression。 使 用 这 些 kernel 模 型 天 可 以 将 线性 模型 扩展 到 非 线 性 模型 ，kernel 
就 是 实现 一 种 特征 转换 ， 从 而 能 够 处 理 非 常 复 杂 的 非 线性 模型 。 顺 便 提 一 下 ， 因 为 
PCA、k-Means 等 算法 都 包含 了 内 积 运算 ， 所 以 它们 都 对 应 有 相应 的 kernel 版 本 。 





Exploiting Numerous Features via Kernel 


numerous features within some ®: 
embedded in kernel K with inner product operation | 


Polynomial Kernel  ' Gaussian Kernel Stump Kernel 


'scaled' polynomial infinite-dimensional decision-stumps as 
transforms transforms transforms 



















Sum of Kernels Product of KernelS Mercer Kernels 
transform union transform combination | transform implicitly 





kernel ridge kernel logistic 
regression regression 





SVR probabilistic SVM 


possibly Kernel PCA, Kernel «Means, ... | 


Kernel 是 我 们 利用 特征 转换 的 第 一 种 方法 ， 那 利用 特征 转换 的 第 二 种 方法 就 是 
Aggregation。 我 们 之 前 介绍 的 所 有 的 hypothesis 都 可 以 看 成 是 一 种 特征 转换 ， 然 后 再 
由 这 些 g 组 合成 G。 我 们 介绍 过 的 分 类 模型 (hypothesis) 包括 : Decision Stump, 
Decision Tree 和 Gaussian RBF 等 ;如 果 所 有 的 g 是 已 知 的， 就 可 以 进行 blending， 例 
如 Uniform、Non-Uniform 和 Conditional 等 方式 进行 aggregation。 如 果 所 有 的 g 是 未 知 
的 ， 可 以 使 用 例如 Bagging、iAdaBoost 和 Decision Tree 的 方法 来 建立 模型 。 除 此 之 
外 ， 还 有 probabilistic SVM 模型 。 值 得 一 提 的 是 ， 机 器 学 习 中 很 多 模型 都 是 类 似 的 ， 
我 们 在 设计 一 个 机 器 学 习 模 型 时 ， 应 该 融会 贯通 。 








Exploiting Predictive Features via Aggregation 
predictive features within some ®: 
r(x) = 9i(X) 
Decision Stump Decision Tree (Gaussian) RBF 


simplest perceptron; | branching (divide)+ | prototype (center) + 
simplest DecTree leaves (conquer) influence 























Uniform Non-Uniform Conditional 


Bagging; AdaBoost; Decision Tree: 
Random Forest GradientBoost Nearest Neighbor 





probabilistic SVM 
possibly Infinite Ensemble Learning, 
Decision Tree SVM? | 


除 此 之 外 ， 我 们 还 介绍 了 利用 提取 的 方式 ， 找 出 潜藏 的 特征 (Hidden Features) 。 一 
般 通 过 unsupervised learning 的 方法 ， 从 原始 数据 中 提取 出 隐藏 特征 ， 使 用 权重 表 
征 。 相 应 的 模型 包括 : Neural Network. RBF Network, Matrix Factorization 等 。 这 些 
模型 使 用 的 unsupervised learning 方 法 包括 : AdaBoost、k-Means 和 Autoencoder、 
PCA 等 。 





Exploiting Hidden Features via Extraction 
hidden features within some ®: 







as hidden variables to be ‘jointly’ optimized with usual weights 







—possibly with the help of unsupervised learning 


Neural Network; RBF Network Matrix Factorization 
Deep Learning 


neuron weights 





RBF centers user/movie factors 











AdaBoost; Autoencoder; 
GradientBoost PCA 
g: parameters ‘basis’ directions 













cluster centers 






possibly GradientBoosted Neufons, 
NNet on Factorized Featurés, Y. | 


另外 ， 还 有 一 种 非常 有 用 的 特征 转换 方法 是 维度 压缩 ， 即 将 高 维度 的 数据 降低 E 
影 ) 到 低 维度 的 数据 。 我 们 介绍 过 的 维度 压缩 模型 包括 : Decision Stump. Random 
Forest Tree Branching、Autoencoder、PCA 和 Matrix Factorization 等 。 这 些 从 高 纬度 
到 低 纬度 的 特征 转换 在 实际 应 用 中 作用 很 大 。 





Exploiting Low-Dim. Features via Compression 


low-dimensional features within some ®: 
compressed from original features | 


Autoencoder;PCA 


Decision Stump; Random Forest info.-preserving 
DecTree Branching | Tree Branching compression 


'random' low-dim. 
projection 

























'best naive projection 


Matrix Factorization 
to R 


projection from 
abstract to concrete 








Feature Selection 
‘most-helpful’ low-dimensional projection 





possibly other ‘dimension reduation models 


Error Optimization Techniques, 





接 下 来 我 们 将 总 结 一 下 本 系列 课程 中 介绍 过 哪些 优化 技巧 。 首 先 ， 第 一 个 数值 优化 技 
巧 就 是 梯度 下 降 (Gradient Descent) y 即 让 变量 沿 着 其 梯度 反方 向 变化 ， 不 断 接近 
最 优 解 。 例 如 我 们 介绍 过 的 SGD、Steepest Descent 和 Functional GD 都 是 利用 了 梯度 
下 降 的 技巧 。 à 








Numerical Optimization via Gradient Descent 


when VE ‘approximately’ defined, use it for ist order approximation: 
new variables = old variables — nVE | 


SGD/Minibatch/GD ° Steepest Descent 





Functional GD 















(Kernel) LogReg; AdaBoost; AdaBoost; 

Neural Network GradientBoost GradientBoost 
[backprop]; 

Matrix Factorization; 

Linear SVM (maybe) 


possibly 2nd order techniques, 
GD under constraints, . ~ | 
而 对 于 一 些 更 复杂 的 最 佳 化 问题 ， 无 法 直接 利用 梯度 下 降 方 法 来 做 ， 往 往 需要 一 些 数 
学 上 的 推导 来 得 到 最 优 解 。 最 典型 的 例子 是 Dual SVM， 还 包括 Kernel LogReg、 
Kernel RidgeReg 和 PCA 等 等 。 这 些 模型 本 身 包 含 了 很 多 数学 上 的 一 些 知识 ， 例 如 线 
性 代数 等 等 。 除 此 之 外 ， 还 有 一 些 boosting 和 kernel 模 型 ， 虽然 本 课程 中 没有 提 到 ， 但 
是 都 会 用 到 类 似 的 数学 推导 和 转换 技巧 。 


Indirect Optimization via Equivalent Solution 
when difficult to solve original problem, 
seek for equivalent solution | 


Dual SVM Kernel LogReg 
Kernel RidgeReg 


equivalence via equivalence via equivalence to 
convex QP representer eigenproblem 


some other boosting models and modern 
solvers of kernel models rely on such a 
technique heavily 








算 。 也 就 是 将 问题 划分 为 多 个 步骤 进行 求解 ， 即 Multi-Stage。 例 如 probabilistic 

SVM, linear blending, RBF Network 等 。 还 可 以 使 用 交叉 迭代 优化 的 方法 ， 即 

Alternating Optim。 例 如 k-Means、alternating LeastSqr 等 。 除 此 之 外 ， 还 可 以 采样 分 
治之 的 方法 ， 即 Divide & Conquer。 例 如 decision tree。 


Complicated Optimization via Multiple Steps 
when difficult to solve original problem, 
seek for ‘easier’ sub-problems | 


Multi-Stage 
probabilistic SVM; 






Alternating Optim. 
k-Means; 








Divide & Conquer 
decision tree; 















linear blending; alternating LeastSqr; 
stacking; (steepest descent) 
RBF Network; 

DeepNet pre-training 


useful for complicated models | 


Overfitting Elimination Techniques 


Feature Exploitation Techniqueés 和 Error Optimization Techniques 都 是 为 了 优化 复杂 
模型 ， 减 小 Ei,,。 但 是 in 太 小 有 很 可 能 会 造成 过 拟 合 overfitting。 因 此 ， 机 器 学 习 
中 ，Overfitting Elimination 尤 为 重要 。 


首先 ， 可 以 使 用 Regularization 来 避免 过 拟 合 现 象 友 生 。 我 们 介绍 过 的 方法 包括 : 


large-margin、L2、voting/averaging 等 等 。 





Overfitting Elimination via Regularization 


when model too ‘powerful’: 
add brakes somewhere | 


voting/averaging 
uniform blending; 
Bagging; 

Random Forest 











large-margin 
SVM; 
AdaBoost (indirectly) 














SVR; 
kernel models; 
NNet [weight-decay] 








constraining 
autoenc. [weights]; 
RBF [# centers]; 





denoising weight-elimination 


autoencoder 






pruning early stopping 
decision tree NNet (any GD-like) 


arguably most important tegppidues | 


除了 Regularization 之 外 ， 还 可 以 使 用 Validation 来 消除 Overfitting。 我 们 介绍 过 的 
Validation 包 括 : SV、OOB 和 Internal Validation 等 。 


Overfitting Elimination via Validation 


when model too ‘powerful’: 
check performance carefully and honestly | 


Internal Validation 
blending; 
DecTree pruning 


simple but necessary | 


Machine Learning in Action 











Random Forest 





SVM/SVR 





本 小 节 介 绍 了 林 轩 田 老师 所 在 的 台大 团队 在 近 几 年 的 KDDCup 国 际 竞赛 上 的 表现 和 使 
用 的 各 种 机 器 算法 。 融 合 了 我 们 在 本 系列 课程 中 所 介绍 的 很 多 机 器 学 习 技 法 和 模型 。 
这 里 不 再 一 一 袭 述 ， 将 相应 的 图 片 贴 出 来 ， 读 者 自己 看 看 吧 。 





NTU KDDCup 2010 World Champion Model 


Feature engineering and classifier ensemble for KDD Cup 2010, 
Yu et al., KDDCup 2010 | 


linear blending of | 
Logistic Regression Random Forest + 
many rawly encoded features | human-designed features | 


yes, you've learned everything! :-) 












NTU KDDCup 2011 Track 1 Worl 


A linear ensemble of individual and ble 
prediction, 


odels for music rating 
hen et al., KDDCup 2011 


* 





NNet, DecTree-like, and then linear blending of 
os 
* Matrix Factorization, s, including probabilistic PCA 
e Restricted Boltzm achines: an ‘extended’ autoencoder 


e k Nearest Ner 
e Probabilistic Latent Semantic Analysis: 


an extraction model that has ‘soft clusters’ as hidden variables 


linear regression, NNet, & GBDT 





yes, you can ‘easily’ 
understand everything! :-) 





NTU KDDCup 2012 Track 2 World Champion Model 
A two-stage ensemble of diverse models for advertisement ranking in 
KDD Cup 2012, Wu et al., KDDCup 2012 | 


NNet, GBDT-like, and then linear blending of 


e Linear Regression variants, including linear SVR 
* Logistic Regression variants 
e Matrix Factorization variants 





‘key’ is to blend properly without overfitting | 


NTU KDDCup 2013 Track 1 World Champion Model 


Combination of feature engineering and ranking models for paper- 
author identification in KDD Cup 201 3, Li et al., KDDCup 2013 | 
linear blending of = 

s。 Random Forest viti many many many trees 
e GBDT variants Se 


n 
with tons of efforts in c designing features 


'another key' is to construct features with 
domain knowledge | 


ICDM 在 2006 年 的 时 候 发 布 了 排名 前 十 的 数据 挖掘 算法 ， 如 下 图 所 示 。 其 中 大 部 分 的 
算法 我 们 在 本 系列 的 课程 中 都 有 过 介绍 。 值 得 一 提 的 是 Naive Bayes 算 法 本 课程 中 没 
有 涉及 ， 贝 叶 斯 模型 在 实际 中 应 用 还 是 挺 广泛 的 ， 后 续 可 能 还 需要 深入 学 习 一 下 。 








ICDM 2006 Top 10 Data Mining Algorithms 


Q C4.5: another decision Q PageRank: for 
tree link-analysis, similar to 

@ k-Means matrix factorization 

© SVM @ AdaBoost 

© ^o for frequent itemse! © k Nearest Neighbor 
mining O Naive Bayes: a simple 

O EM: ‘alternating linear mode! with ‘weights’ 
optimization’ algorithm for decided by data statistics 
some models @® C&RT 





personal view of five missing ML competitors: 
LinReg, LogReg, 
Random Forest, GBDT, NNet 





最 后 ， 我 们 将 所 有 介绍 过 的 机 器 学 习 算法 和 模型 列举 出 来 : 


Machine tearning Jungle 


bagging decision trea ~Sapport vector machine neural network d 
AERE aggreggnon .Sparsity autoencoder functional gradient 


dual form blending deep learning nearest neighbor decision stump 


kernel LogReg large-margin Prototype quadratic programming SVR 


GBDT PCA random forest Matrix factorization Gaussian kernel 
k-means OOB error RBF network probabilistic SVM 


soft-margin 





welcome to the jungle! | 
总 结 


本 节 课 主要 从 三 个 方面 来 对 机 器 学 习 技 法 课程 做 个 总 结 : Feature Exploitation 
Techniques, Error Optimization Techniques 和 Overfitting Elimination Techniques。 z 


后 介绍 了 林 轩 田 老师 带领 的 台大 团队 是 如 何在 历届 KDDCup 中 将 很 多 机 器 学 习 算 法 模 pi T = 





型 融合 起 来 ， 并 获得 了 良好 的 成 绩 。 


e Feature Exploitation Techniques 
kernel, aggregation, extraction, low-dimensional 
e Error Optimization Techniques 
gradient, equivalence, stages 
e Overfitting Elimination Techniques 
(lots of) regularization, validation 
e Machine Learning in Practice 
welcome to the jungle 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《机 器 学 习 技 法 》 课 程 





